論文の概要: CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2012.03400v1
- Date: Mon, 7 Dec 2020 00:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:26:28.383382
- Title: CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation
- Title(参考訳): CompFeat: ビデオインスタンスセグメンテーションのための包括的な機能集約
- Authors: Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi
- Abstract要約: ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
- 参考スコア(独自算出の注目度): 67.17625278621134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation is a complex task in which we need to detect,
segment, and track each object for any given video. Previous approaches only
utilize single-frame features for the detection, segmentation, and tracking of
objects and they suffer in the video scenario due to several distinct
challenges such as motion blur and drastic appearance change. To eliminate
ambiguities introduced by only using single-frame features, we propose a novel
comprehensive feature aggregation approach (CompFeat) to refine features at
both frame-level and object-level with temporal and spatial context
information. The aggregation process is carefully designed with a new attention
mechanism which significantly increases the discriminative power of the learned
features. We further improve the tracking capability of our model through a
siamese design by incorporating both feature similarities and spatial
similarities. Experiments conducted on the YouTube-VIS dataset validate the
effectiveness of proposed CompFeat. Our code will be available at
https://github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentation.
- Abstract(参考訳): ビデオインスタンスのセグメンテーションは、任意のビデオに対して各オブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクである。
これまでのアプローチでは、オブジェクトの検出、セグメンテーション、トラッキングにのみシングルフレーム機能を使用しており、動画シナリオでは、動きのぼやけや劇的な外観変化など、いくつかの異なる課題によって苦しめられている。
単一フレームの特徴のみを用いて導入されたあいまいさを解消するため,時間的・空間的文脈情報を用いて,フレームレベルとオブジェクトレベルの特徴を洗練するための包括的特徴集約手法(CompFeat)を提案する。
集約プロセスは、学習した特徴の識別力を著しく向上させる新しい注意機構で慎重に設計される。
特徴的類似点と空間的類似点の両方を組み込むことで,シアム設計によるモデル追跡能力をさらに向上する。
YouTube-VISデータセットで実施された実験は、提案したCompFeatの有効性を検証する。
私たちのコードはhttps://github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentationで公開されます。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。