論文の概要: Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
- arxiv url: http://arxiv.org/abs/2510.06139v1
- Date: Tue, 07 Oct 2025 17:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.376059
- Title: Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
- Title(参考訳): ビデオのマスクへの変形:ビデオセグメンテーションの参照のためのフローマッチング
- Authors: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang,
- Abstract要約: FlowRVSは、RVOSを条件付き連続フロー問題として再認識する新しいフレームワークである。
我々は,映像の全体像からターゲットマスクへの直接的,言語誘導的な変形を学習することにより,タスクを再構築する。
我々の一段階の生成的アプローチは、主要なRVOSベンチマーク全体にわたって、新しい最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 46.416906762916305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Video Object Segmentation (RVOS) requires segmenting specific objects in a video guided by a natural language description. The core challenge of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels and continuously segment them through the complex dynamics of a video. Faced with this difficulty, prior work has often decomposed the task into a pragmatic `locate-then-segment' pipeline. However, this cascaded design creates an information bottleneck by simplifying semantics into coarse geometric prompts (e.g, point), and struggles to maintain temporal consistency as the segmenting process is often decoupled from the initial language grounding. To overcome these fundamental limitations, we propose FlowRVS, a novel framework that reconceptualizes RVOS as a conditional continuous flow problem. This allows us to harness the inherent strengths of pretrained T2V models, fine-grained pixel control, text-video semantic alignment, and temporal coherence. Instead of conventional generating from noise to mask or directly predicting mask, we reformulate the task by learning a direct, language-guided deformation from a video's holistic representation to its target mask. Our one-stage, generative approach achieves new state-of-the-art results across all major RVOS benchmarks. Specifically, achieving a $\mathcal{J}\&\mathcal{F}$ of 51.1 in MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7), demonstrating the significant potential of modeling video understanding tasks as continuous deformation processes.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)を参照するには、自然言語記述でガイドされたビデオ内の特定のオブジェクトをセグメント化する必要がある。
RVOSの中核となる課題は、抽象言語概念を特定のピクセルに固定し、ビデオの複雑なダイナミックスを通して連続的に分割することである。
このような困難に直面して、事前の作業はしばしば、タスクを実践的な‘ロケーション・then-segment’パイプラインに分解しました。
しかし、このカスケード設計は、意味論を粗い幾何学的プロンプト(例えば点)に単純化することで情報ボトルネックを生じさせ、セグメンテーションプロセスが初期言語基盤から分離されることがしばしばあるため、時間的一貫性を維持するのに苦労する。
本稿では, RVOSを条件付き連続フロー問題として再認識する新しいフレームワークであるFlowRVSを提案する。
これにより、事前訓練されたT2Vモデル、きめ細かいピクセル制御、テキスト・ビデオ・セマンティックアライメント、時間的コヒーレンスといった特性を利用することができる。
従来のノイズからマスクへ、あるいは直接予測マスクに代えて、映像の全体像からターゲットマスクへの直接的言語誘導変形を学習することでタスクを再構築する。
我々の一段階の生成的アプローチは、主要なRVOSベンチマーク全体にわたって、新しい最先端の結果を達成する。
具体的には、MeViSで51.1ドル(SOTAで+1.6以上)、ゼロショットのRef-DAVIS17で73.3ドル(+2.7以上)の$\mathcal{J}\&\mathcal{F}を達成し、ビデオ理解タスクを連続的な変形過程としてモデル化する有意義な可能性を示した。
関連論文リスト
- Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。