論文の概要: Spatial-Temporal Multi-level Association for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2404.06265v1
- Date: Tue, 9 Apr 2024 12:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 14:40:35.228078
- Title: Spatial-Temporal Multi-level Association for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのための空間的マルチレベルアソシエーション
- Authors: Deshui Miao, Xin Li, Zhenyu He, Huchuan Lu, Ming-Hsuan Yang,
- Abstract要約: 本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
- 参考スコア(独自算出の注目度): 89.32226483171047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing semi-supervised video object segmentation methods either focus on temporal feature matching or spatial-temporal feature modeling. However, they do not address the issues of sufficient target interaction and efficient parallel processing simultaneously, thereby constraining the learning of dynamic, target-aware features. To tackle these limitations, this paper proposes a spatial-temporal multi-level association framework, which jointly associates reference frame, test frame, and object features to achieve sufficient interaction and parallel target ID association with a spatial-temporal memory bank for efficient video object segmentation. Specifically, we construct a spatial-temporal multi-level feature association module to learn better target-aware features, which formulates feature extraction and interaction as the efficient operations of object self-attention, reference object enhancement, and test reference correlation. In addition, we propose a spatial-temporal memory to assist feature association and temporal ID assignment and correlation. We evaluate the proposed method by conducting extensive experiments on numerous video object segmentation datasets, including DAVIS 2016/2017 val, DAVIS 2017 test-dev, and YouTube-VOS 2018/2019 val. The favorable performance against the state-of-the-art methods demonstrates the effectiveness of our approach. All source code and trained models will be made publicly available.
- Abstract(参考訳): 既存の半教師付きビデオオブジェクトセグメンテーション手法は、時間的特徴マッチングや時空間的特徴モデリングに重点を置いている。
しかし、十分なターゲットインタラクションと効率的な並列処理の問題を同時に解決することはできず、それによって動的でターゲット対応な特徴の学習が制限される。
これらの制約に対処するために,ビデオオブジェクトの効率的なセグメンテーションのために,参照フレーム,テストフレーム,オブジェクト特徴を協調的に関連付け,十分なインタラクションと並列ターゲットIDを空間時間記憶バンクと組み合わせた空間時空間多レベルアソシエーションフレームワークを提案する。
具体的には,対象の自己アテンション,参照対象のエンハンスメント,テスト基準相関の効率的な操作として特徴抽出と相互作用を定式化する,より優れた目標認識特徴を学習するための空間時間的多段階特徴関連モジュールを構築した。
さらに,特徴関連と時間的ID割り当てと相関を補助する空間時空間メモリを提案する。
提案手法は, DAVIS 2016/2017 val, DAVIS 2017 test-dev, YouTube-VOS 2018/2019 val など,多数のビデオオブジェクトセグメンテーションデータセットに対して広範な実験を行うことで評価した。
最先端手法に対する良好な性能は、我々のアプローチの有効性を示すものである。
すべてのソースコードとトレーニングされたモデルは公開されます。
関連論文リスト
- Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - TIVE: A Toolbox for Identifying Video Instance Segmentation Errors [5.791075969487935]
ビデオインスタンスエラー(VIS)タスクは、パフォーマンスを高めるためにアーキテクチャモデリングに多くの研究者が注力している。
ビデオインスタンスのセグメンテーションエラーを識別するツールボックスであるTIVEを紹介した。
ツールボックスによる広範な実験を行い,空間的セグメンテーションと時間的関連が相互にどのように影響するかを明らかにした。
論文 参考訳(メタデータ) (2022-10-17T08:51:31Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。