論文の概要: Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data
- arxiv url: http://arxiv.org/abs/2509.03501v1
- Date: Wed, 03 Sep 2025 17:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.614717
- Title: Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data
- Title(参考訳): Strefer: 合成インストラクションデータによる時空参照と推論によるビデオLLMの強化
- Authors: Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles,
- Abstract要約: Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。
Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。
我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
- 参考スコア(独自算出の注目度): 100.5266292850922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next-generation AI companions must go beyond general video understanding to resolve spatial and temporal references in dynamic, real-world environments. Existing Video Large Language Models (Video LLMs), while capable of coarse-level comprehension, struggle with fine-grained, spatiotemporal reasoning, especially when user queries rely on time-based event references for temporal anchoring, or gestural cues for spatial anchoring to clarify object references and positions. To bridge this critical gap, we introduce Strefer, a synthetic instruction data generation framework designed to equip Video LLMs with spatiotemporal referring and reasoning capabilities. Strefer produces diverse instruction-tuning data using a data engine that pseudo-annotates temporally dense, fine-grained video metadata, capturing rich spatial and temporal information in a structured manner, including subjects, objects, their locations as masklets, and their action descriptions and timelines. Our approach enhances the ability of Video LLMs to interpret spatial and temporal references, fostering more versatile, space-time-aware reasoning essential for real-world AI companions. Without using proprietary models, costly human annotation, or the need to annotate large volumes of new videos, experimental evaluations show that models trained with data produced by Strefer outperform baselines on tasks requiring spatial and temporal disambiguation. Additionally, these models exhibit enhanced space-time-aware reasoning, establishing a new foundation for perceptually grounded, instruction-tuned Video LLMs.
- Abstract(参考訳): 次世代AIコンパニオンは、ダイナミックで現実世界の環境における空間的および時間的参照を解決するために、一般的なビデオ理解を超えなければならない。
既存のビデオ大言語モデル (Video Large Language Models, ビデオLLM) は、粗いレベルの理解が可能でありながら、細粒度で時空間的な推論に苦慮している。
この重要なギャップを埋めるために,ビデオLLMに時空間参照と推論機能を持たせるための合成命令データ生成フレームワークであるStreferを導入する。
Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似的に注釈付けし、被写体、オブジェクト、マスクレットとしての位置、行動記述とタイムラインを含む、豊富な空間的および時間的情報を構造化された方法でキャプチャするデータエンジンを使用して、多様な命令チューニングデータを生成する。
我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
プロプライエタリなモデル、コストのかかる人的アノテーション、あるいは大量の新しいビデオに注釈を加える必要がなければ、実験的な評価は、Streferによって生成されたデータで訓練されたモデルは、空間的および時間的曖昧さを必要とするタスクにおいて、ベースラインより優れていることを示している。
さらに、これらのモデルは拡張された時空間認識推論を示し、知覚的に接地し、命令で調整されたビデオLLMのための新しい基盤を確立した。
関連論文リスト
- VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding [46.97966072048103]
VideoLoomはビデオ大言語モデル (Video Large Language Model, ビデオ大言語モデル) である。
時間的接地と空間的局所的なキャプションを備えた人間中心のビデオデータセットであるLoomData-8.7kを紹介する。
また、時間的、空間的、構成的なビデオ検索ペアからなる新しいベンチマークであるLoomBenchを紹介する。
論文 参考訳(メタデータ) (2026-01-12T07:51:37Z) - SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs [5.074812070492738]
本稿では,正確な時間的推論とマルチモーダル理解を目的とした,データ効率のよいビデオLLMであるDaMOを紹介する。
構造化された4段階のプログレッシブトレーニングパラダイムを通じてDaMOをトレーニングし、マルチモーダルアライメント、セマンティックグラウンド、時間的推論機能を備えたモデルを段階的に装備する。
我々の研究は、データ効率の良いビデオ言語モデリングのための有望な方向性を確立する。
論文 参考訳(メタデータ) (2025-06-13T08:13:05Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。