論文の概要: Planner-Refiner: Dynamic Space-Time Refinement for Vision-Language Alignment in Videos
- arxiv url: http://arxiv.org/abs/2508.07330v2
- Date: Sat, 16 Aug 2025 06:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 12:43:44.866472
- Title: Planner-Refiner: Dynamic Space-Time Refinement for Vision-Language Alignment in Videos
- Title(参考訳): Planner-Refiner: ビデオにおける視覚領域アライメントのための動的空間時間リファインメント
- Authors: Tuyen Tran, Thao Minh Le, Quang-Hung Le, Truyen Tran,
- Abstract要約: Planner-Refinerは言語と視覚の間のセマンティックギャップを橋渡しするフレームワークである。
Plannerモジュールは複雑な言語的プロンプトを分解することで言語指導をスケジュールする。
Refinerは各短い文、名詞句と動詞句のペアを処理し、空間を横断する視覚トークンの自己注意を指示する。
- 参考スコア(独自算出の注目度): 13.618454017248801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language alignment in video must address the complexity of language, evolving interacting entities, their action chains, and semantic gaps between language and vision. This work introduces Planner-Refiner, a framework to overcome these challenges. Planner-Refiner bridges the semantic gap by iteratively refining visual elements' space-time representation, guided by language until semantic gaps are minimal. A Planner module schedules language guidance by decomposing complex linguistic prompts into short sentence chains. The Refiner processes each short sentence, a noun-phrase and verb-phrase pair, to direct visual tokens' self-attention across space then time, achieving efficient single-step refinement. A recurrent system chains these steps, maintaining refined visual token representations. The final representation feeds into task-specific heads for alignment generation. We demonstrate Planner-Refiner's effectiveness on two video-language alignment tasks: Referring Video Object Segmentation and Temporal Grounding with varying language complexity. We further introduce a new MeViS-X benchmark to assess models' capability with long queries. Superior performance versus state-of-the-art methods on these benchmarks shows the approach's potential, especially for complex prompts.
- Abstract(参考訳): ビデオにおける視覚言語アライメントは、言語の複雑さ、相互作用するエンティティの進化、アクションチェーン、言語と視覚の間の意味的ギャップに対処する必要がある。
この作業では、これらの課題を克服するフレームワークであるPlanner-Refinerを導入している。
Planner-Refinerは、セマンティックギャップが最小になるまで言語によってガイドされる、視覚要素の時空間表現を反復的に洗練することによってセマンティックギャップを橋渡しする。
Plannerモジュールは、複雑な言語的プロンプトを短い文列に分解することで、言語指導をスケジュールする。
Refinerは各短い文、名詞句と動詞句のペアを処理し、空間を横断して視覚トークンの自己注意を誘導し、効率的な単一ステップの洗練を実現する。
リカレントシステムはこれらのステップをチェーンし、洗練されたビジュアルトークン表現を維持する。
最後の表現は、アライメント生成のためのタスク固有のヘッドにフィードされる。
ビデオオブジェクトセグメンテーションとテンポラルグラウンドの参照という2つのビデオ言語アライメントタスクにおけるPlanner-Refinerの有効性を示す。
さらに、長いクエリでモデルの能力を評価するために、新しいMeViS-Xベンチマークを導入する。
これらのベンチマークにおける高性能と最先端の手法は、特に複雑なプロンプトに対するアプローチの可能性を示している。
関連論文リスト
- One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement [19.494104738436892]
このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。
言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-04-27T17:55:13Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。