論文の概要: SAMDWICH: Moment-aware Video-text Alignment for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2508.11955v1
- Date: Sat, 16 Aug 2025 07:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.482066
- Title: SAMDWICH: Moment-aware Video-text Alignment for Referring Video Object Segmentation
- Title(参考訳): SAMDWICH:ビデオオブジェクトセグメンテーションを参照するためのモーメント対応ビデオテキストアライメント
- Authors: Seunghun Lee, Jiwan Seo, Jeonghoon Kim, Siwon Kim, Haeun Yun, Hyogyeong Jeon, Wonhyeok Choi, Jaehoon Jeong, Zane Durante, Sang Hyun Park, Sunghoon Im,
- Abstract要約: Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
現行の手法は、訓練中、フレームサンプリングとすべての可視物体の監視が区別できないため、意味的ミスアライメントに悩まされることが多い。
我々は、SAMDWICHというモーメントを意識したRVOSフレームワークと、新しい注釈付きデータセットMeViS-Mを、挑戦的なMeViSベンチマークに基づいて導入する。
- 参考スコア(独自算出の注目度): 16.11630169710364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment and track objects in videos based on natural language expressions, requiring precise alignment between visual content and textual queries. However, existing methods often suffer from semantic misalignment, largely due to indiscriminate frame sampling and supervision of all visible objects during training -- regardless of their actual relevance to the expression. To address this, we introduce a moment-aware RVOS framework named SAMDWICH, along with a newly annotated dataset, MeViS-M, built upon the challenging MeViS benchmark. We manually annotate temporal moments indicating when each object is referred to by the expression, enabling semantically grounded supervision that strengthens video-text alignment. SAMDWICH leverages these aligned text-to-clip pairs to guide training, significantly enhancing referential understanding. Building upon this framework, we propose Moment-guided Dual-path Propagation (MDP), a moment-aware propagation strategy that improves both object grounding and tracking by training on both relevant and irrelevant frames through a moment-centric memory mechanism. In addition, we introduce Object-level Selective Supervision (OSS), an object-level filtering strategy that supervises only the objects temporally aligned with the expression in each training clip. This selective supervision reduces semantic noise and reinforces language-conditioned learning. Extensive experiments show that SAMDWICH achieves state-of-the-art performance on challenging MeViS benchmark, particularly excelling in complex scenarios involving diverse expressions.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としており、ビジュアルコンテンツとテキストクエリの正確なアライメントを必要とする。
しかし、既存の手法は、しばしば意味的なミスアライメントに悩まされる。主な原因は、訓練中のすべての可視物体の無差別なフレームサンプリングと監督である。
これを解決するために、SAMDWICHというモーメント対応RVOSフレームワークと、新しい注釈付きデータセットであるMeViS-Mが、挑戦的なMeViSベンチマークに基づいて構築されている。
我々は,各オブジェクトが表現によって参照される時間を示す時間的モーメントを手動でアノテートし,ビデオテキストのアライメントを強化するセマンティックグラウンドド・インスペクションを可能にする。
SAMDWICHはこれらの整列したテキストとクリップのペアを利用してトレーニングをガイドし、参照理解を大幅に強化する。
この枠組みに基づいて、モーメント誘導デュアルパス伝搬(MDP)を提案する。モーメント誘導デュアルパス伝搬(MDP)は、モーメント中心のメモリ機構により、関連フレームおよび非関連フレームのトレーニングにより、オブジェクトのグラウンド化とトラッキングを改善するモーメント対応の伝搬戦略である。
さらに,各トレーニングクリップの表現と時間的に一致したオブジェクトのみを監督するオブジェクトレベルのフィルタリング戦略であるオブジェクトレベル選択スーパービジョン(OSS)を導入する。
この選択的監視は意味的ノイズを低減し、言語条件学習を強化する。
大規模な実験により、SAMDWICHは、MeViSベンチマークの挑戦、特に多様な表現を含む複雑なシナリオにおいて、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。