論文の概要: Learning Spatial-Semantic Features for Robust Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2407.07760v2
- Date: Mon, 07 Apr 2025 07:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:07:25.950545
- Title: Learning Spatial-Semantic Features for Robust Video Object Segmentation
- Title(参考訳): ロバストビデオオブジェクトセグメンテーションのための空間意味的特徴の学習
- Authors: Xin Li, Deshui Miao, Zhenyu He, Yaowei Wang, Huchuan Lu, Ming-Hsuan Yang,
- Abstract要約: 本稿では,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
DAVIS 2017 test (textbf87.8%)、YoutubeVOS 2019 (textbf88.1%)、MOSE val (textbf74.0%)、LVOS test (textbf73.0%)を含むベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 108.045326229865
- License:
- Abstract: Tracking and segmenting multiple similar objects with distinct or complex parts in long-term videos is particularly challenging due to the ambiguity in identifying target components and the confusion caused by occlusion, background clutter, and changes in appearance or environment over time. In this paper, we propose a robust video object segmentation framework that learns spatial-semantic features and discriminative object queries to address the above issues. Specifically, we construct a spatial-semantic block comprising a semantic embedding component and a spatial dependency modeling part for associating global semantic features and local spatial features, providing a comprehensive target representation. In addition, we develop a masked cross-attention module to generate object queries that focus on the most discriminative parts of target objects during query propagation, alleviating noise accumulation to ensure effective long-term query propagation. Extensive experimental results show that the proposed method achieves state-of-the-art performance on benchmark data sets, including the DAVIS2017 test (\textbf{87.8\%}), YoutubeVOS 2019 (\textbf{88.1\%}), MOSE val (\textbf{74.0\%}), and LVOS test (\textbf{73.0\%}), and demonstrate the effectiveness and generalization capacity of our model. The source code and trained models are released at \href{https://github.com/yahooo-m/S3}{https://github.com/yahooo-m/S3}.
- Abstract(参考訳): 対象コンポーネントを識別するあいまいさや、隠蔽や背景の乱れによる混乱、外見や環境の変化などが原因で、長期的なビデオでは、複数の類似したオブジェクトの追跡とセグメンテーションは特に困難である。
本稿では,このような問題に対処するために,空間意味的特徴と識別的オブジェクトクエリを学習する,ロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
具体的には,グローバルな意味的特徴と局所的な空間的特徴を関連付けるために,意味的埋め込み成分と空間依存モデリング部とから構成される空間意味的ブロックを構築し,包括的対象表現を提供する。
さらに,問合せ伝搬において対象オブジェクトの最も識別性の高い部分に焦点を絞ったオブジェクトクエリを生成するためのマスク付きクロスアテンションモジュールを開発し,雑音の蓄積を緩和し,効果的な長期的問合せ伝搬を実現する。
DAVIS2017 test (\textbf{87.8\%})、YoutubeVOS 2019 (\textbf{88.1\%})、MOSE val (\textbf{74.0\%})、LVOS test (\textbf{73.0\%})など、ベンチマークデータセット上での最先端性能を実現し、本モデルの有効性と一般化能力を示す。
ソースコードとトレーニングされたモデルは、 \href{https://github.com/yahooo-m/S3}{https://github.com/yahooo-m/S3} でリリースされている。
関連論文リスト
- Discriminative Spatial-Semantic VOS Solution: 1st Place Solution for 6th LSVOS [68.47681139026666]
ビデオオブジェクトセグメンテーション(VOS)はコンピュータビジョンにおいて重要な課題である。
現在のVOS法は複雑なシーンと長い物体の動きに苦しむ。
本報告では,空間時空間VOSモデルについて述べる。
論文 参考訳(メタデータ) (2024-08-29T10:47:17Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Spatial-Temporal Multi-level Association for Video Object Segmentation [89.32226483171047]
本稿では,参照フレーム,テストフレーム,オブジェクト特徴を相互に関連付ける空間的・時間的多レベルアソシエーションを提案する。
具体的には,空間的・時間的多段階特徴関連モジュールを構築し,より優れた目標認識特徴を学習する。
論文 参考訳(メタデータ) (2024-04-09T12:44:34Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - Tackling Background Distraction in Video Object Segmentation [7.187425003801958]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内の特定のオブジェクトを密に追跡することを目的としている。
このタスクの主な課題の1つは、ターゲットオブジェクトに類似したように見えるバックグラウンド・トラクタの存在である。
このような混乱を抑制するための3つの新しい戦略を提案する。
我々のモデルは,リアルタイムな性能であっても,現代の最先端手法に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2022-07-14T14:25:19Z) - Addressing Multiple Salient Object Detection via Dual-Space Long-Range
Dependencies [3.8824028205733017]
正常なオブジェクト検出は多くの下流タスクで重要な役割を果たす。
空間空間とチャネル空間の両方に非局所的特徴情報を組み込んだネットワークアーキテクチャを提案する。
複雑なシナリオであっても,本手法は複数の有能な領域を正確に特定できることを示す。
論文 参考訳(メタデータ) (2021-11-04T23:16:53Z) - Sparse Spatial Attention Network for Semantic Segmentation [11.746833714322156]
空間的注意機構は、各クエリロケーションにグローバルなコンテキスト情報を集約することで、長距離依存関係をキャプチャする。
性能を犠牲にすることなく,空間アテンション機構の効率を向上させるために,スパース空間アテンションネットワーク(SSANet)を提案する。
論文 参考訳(メタデータ) (2021-09-04T18:41:05Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。