論文の概要: VIRST: Video-Instructed Reasoning Assistant for SpatioTemporal Segmentation
- arxiv url: http://arxiv.org/abs/2603.27060v1
- Date: Sat, 28 Mar 2026 00:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.761081
- Title: VIRST: Video-Instructed Reasoning Assistant for SpatioTemporal Segmentation
- Title(参考訳): VIRST:時空間分割のためのビデオ指示型推論アシスタント
- Authors: Jihwan Hong, Jaeyoung Do,
- Abstract要約: Video Video Object (RVOS) は、自然言語による記述に基づいて、対象物をビデオに分割することを目的としている。
VIRST(Video-Instructed Reasoning Assistant for Spatio-Temporal)は,グローバルなビデオ推論と画素レベルのマスク予測を単一のモデルで統合するエンドツーエンドフレームワークである。
- 参考スコア(独自算出の注目度): 6.447274127678917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment target objects in videos based on natural language descriptions. However, fixed keyframe-based approaches that couple a vision language model with a separate propagation module often fail to capture rapidly changing spatiotemporal dynamics and to handle queries requiring multi-step reasoning, leading to sharp performance drops on motion-intensive and reasoning-oriented videos beyond static RVOS benchmarks. To address these limitations, we propose VIRST (Video-Instructed Reasoning Assistant for Spatio-Temporal Segmentation), an end-to-end framework that unifies global video reasoning and pixel-level mask prediction within a single model. VIRST bridges semantic and segmentation representations through the Spatio-Temporal Fusion (STF), which fuses segmentation-aware video features into the vision-language backbone, and employs the Temporal Dynamic Anchor Updater to maintain temporally adjacent anchor frames that provide stable temporal cues under large motion, occlusion, and reappearance. This unified design achieves state-of-the-art results across diverse RVOS benchmarks under realistic and challenging conditions, demonstrating strong generalization to both referring and reasoning oriented settings. The code and checkpoints are available at https://github.com/AIDASLab/VIRST.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、自然言語による記述に基づいて、対象物をビデオにセグメントすることを目的としている。
しかし、異なる伝搬モジュールで視覚言語モデルを結合する固定キーフレームベースのアプローチは、急速に変化する時空間のダイナミクスを捉えたり、複数ステップの推論を必要とするクエリを処理するのに失敗することが多く、静的RVOSベンチマークを超えて、モーション集約および推論指向のビデオに急激なパフォーマンス低下をもたらす。
これらの制約に対処するために,グローバルなビデオ推論と画素レベルのマスク予測を単一モデルで統一するエンドツーエンドフレームワークであるVIRST(Video-Instructed Reasoning Assistant for Spatio-Temporal Segmentation)を提案する。
VIRSTは、スペーシャル・テンポラル・フュージョン (STF) を通じてセグメンテーションとセグメンテーションの表現をブリッジし、セグメンテーションを意識した映像特徴を視覚言語バックボーンに融合させ、テンポラル・ダイナミックアンカー・更新器を用いて、大きな動き、オクルージョン、再出現の下で安定した時間的手がかりを提供する、時間的に隣接したアンカーフレームを維持する。
この統一された設計は、現実的で挑戦的な条件下で様々なRVOSベンチマークの最先端結果を達成し、参照設定と推論設定の両方に強力な一般化を示す。
コードとチェックポイントはhttps://github.com/AIDASLab/VIRSTで確認できる。
関連論文リスト
- Training-Free Spatio-temporal Decoupled Reasoning Video Segmentation with Adaptive Object Memory [10.183518059286124]
Reasoning Video Object (VOS) は、ビデオシーケンス間で安定したオブジェクトセグメンテーションを必要とする難しいタスクである。
従来のマルチモーダル大規模言語モデル(MLLM)を微調整してセグメンテーション出力を生成する手法は、かなりのリソースを必要とする。
トレーニングフリーのtextbfStemporal textbfDecoupled Reasoning Video with textbfAdaptive Object bfMemory (SDAM) を提案する。
提案手法は,Ref-YouTubeVOS,RefDAVIS17,MeViViS,ReasonVOS,Ref-YouTubeVOS,RefDAVIS17,ReasonVOSの5つのベンチマークデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2026-03-02T07:15:41Z) - Temporal Prompting Matters: Rethinking Referring Video Object Segmentation [64.82333675385802]
Referring Video Object (RVOS) は、クエリ文によって参照されるオブジェクトをビデオにセグメントすることを目的としている。
既存のほとんどの方法は、密集したマスクアノテーションによるエンドツーエンドのトレーニングを必要とする。
本稿では,参照要因とビデオ要因に対処するテンポラル・プロンプト生成・選択(テネ)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-08T17:59:57Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。