Fugu-MT 論文翻訳(概要): Planner-Refiner: Dynamic Space-Time Refinement for Vision-Language Alignment in Videos

論文の概要: Planner-Refiner: Dynamic Space-Time Refinement for Vision-Language Alignment in Videos

arxiv url: http://arxiv.org/abs/2508.07330v2
Date: Sat, 16 Aug 2025 06:55:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 12:43:44.866472
Title: Planner-Refiner: Dynamic Space-Time Refinement for Vision-Language Alignment in Videos
Title（参考訳）: Planner-Refiner: ビデオにおける視覚領域アライメントのための動的空間時間リファインメント
Authors: Tuyen Tran, Thao Minh Le, Quang-Hung Le, Truyen Tran,
Abstract要約: Planner-Refinerは言語と視覚の間のセマンティックギャップを橋渡しするフレームワークである。 Plannerモジュールは複雑な言語的プロンプトを分解することで言語指導をスケジュールする。 Refinerは各短い文、名詞句と動詞句のペアを処理し、空間を横断する視覚トークンの自己注意を指示する。
参考スコア（独自算出の注目度）: 13.618454017248801
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language alignment in video must address the complexity of language, evolving interacting entities, their action chains, and semantic gaps between language and vision. This work introduces Planner-Refiner, a framework to overcome these challenges. Planner-Refiner bridges the semantic gap by iteratively refining visual elements' space-time representation, guided by language until semantic gaps are minimal. A Planner module schedules language guidance by decomposing complex linguistic prompts into short sentence chains. The Refiner processes each short sentence, a noun-phrase and verb-phrase pair, to direct visual tokens' self-attention across space then time, achieving efficient single-step refinement. A recurrent system chains these steps, maintaining refined visual token representations. The final representation feeds into task-specific heads for alignment generation. We demonstrate Planner-Refiner's effectiveness on two video-language alignment tasks: Referring Video Object Segmentation and Temporal Grounding with varying language complexity. We further introduce a new MeViS-X benchmark to assess models' capability with long queries. Superior performance versus state-of-the-art methods on these benchmarks shows the approach's potential, especially for complex prompts.
Abstract（参考訳）: ビデオにおける視覚言語アライメントは、言語の複雑さ、相互作用するエンティティの進化、アクションチェーン、言語と視覚の間の意味的ギャップに対処する必要がある。この作業では、これらの課題を克服するフレームワークであるPlanner-Refinerを導入している。 Planner-Refinerは、セマンティックギャップが最小になるまで言語によってガイドされる、視覚要素の時空間表現を反復的に洗練することによってセマンティックギャップを橋渡しする。 Plannerモジュールは、複雑な言語的プロンプトを短い文列に分解することで、言語指導をスケジュールする。 Refinerは各短い文、名詞句と動詞句のペアを処理し、空間を横断して視覚トークンの自己注意を誘導し、効率的な単一ステップの洗練を実現する。リカレントシステムはこれらのステップをチェーンし、洗練されたビジュアルトークン表現を維持する。最後の表現は、アライメント生成のためのタスク固有のヘッドにフィードされる。ビデオオブジェクトセグメンテーションとテンポラルグラウンドの参照という2つのビデオ言語アライメントタスクにおけるPlanner-Refinerの有効性を示す。さらに、長いクエリでモデルの能力を評価するために、新しいMeViS-Xベンチマークを導入する。これらのベンチマークにおける高性能と最先端の手法は、特に複雑なプロンプトに対するアプローチの可能性を示している。

論文の概要: Planner-Refiner: Dynamic Space-Time Refinement for Vision-Language Alignment in Videos

関連論文リスト