論文の概要: NarrativeTrack: Evaluating Video Language Models Beyond the Frame
- arxiv url: http://arxiv.org/abs/2601.01095v1
- Date: Sat, 03 Jan 2026 07:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.027235
- Title: NarrativeTrack: Evaluating Video Language Models Beyond the Frame
- Title(参考訳): NarrativeTrack: フレームを越えたビデオ言語モデルの評価
- Authors: Hyeonjeong Ha, Jinjin Ge, Bo Feng, Kaixin Ma, Gargi Chakraborty,
- Abstract要約: MLLMにおける物語理解を評価する最初のベンチマークであるNarrativeTrackを紹介する。
映像を構成要素に分解し,構成推論(CRP)フレームワークを用いて連続性を検証する。
CRPは、時間的永続性から文脈的進化、そしてきめ細かい知覚的推論まで、モデルを進化させることに挑戦する。
- 参考スコア(独自算出の注目度): 10.244330591706744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved impressive progress in vision-language reasoning, yet their ability to understand temporally unfolding narratives in videos remains underexplored. True narrative understanding requires grounding who is doing what, when, and where, maintaining coherent entity representations across dynamic visual and temporal contexts. We introduce NarrativeTrack, the first benchmark to evaluate narrative understanding in MLLMs through fine-grained entity-centric reasoning. Unlike existing benchmarks limited to short clips or coarse scene-level semantics, we decompose videos into constituent entities and examine their continuity via a Compositional Reasoning Progression (CRP), a structured evaluation framework that progressively increases narrative complexity across three dimensions: entity existence, entity changes, and entity ambiguity. CRP challenges models to advance from temporal persistence to contextual evolution and fine-grained perceptual reasoning. A fully automated entity-centric pipeline enables scalable extraction of temporally grounded entity representations, providing the foundation for CRP. Evaluations of state-of-the-art MLLMs reveal that models fail to robustly track entities across visual transitions and temporal dynamics, often hallucinating identity under context shifts. Open-source general-purpose MLLMs exhibit strong perceptual grounding but weak temporal coherence, while video-specific MLLMs capture temporal context yet hallucinate entity's contexts. These findings uncover a fundamental trade-off between perceptual grounding and temporal reasoning, indicating that narrative understanding emerges only from their integration. NarrativeTrack provides the first systematic framework to diagnose and advance temporally grounded narrative comprehension in MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、視覚言語推論において顕著な進歩を遂げてきたが、ビデオにおける時間的に展開する物語を理解する能力はいまだ未解明のままである。
真の物語理解には、ダイナミックな視覚的コンテキストと時間的コンテキストにまたがる一貫性のある実体表現を維持するために、誰が何を、いつ、どこで何をしているかを明確にする必要がある。
本研究では,MLLMにおける物語理解を評価する最初のベンチマークであるNarrativeTrackを紹介する。
短いクリップや粗いシーンレベルのセマンティクスに制限された既存のベンチマークとは異なり、ビデオは構成エンティティに分解され、構成推論プログレクション(CRP)を介して連続性を調べる。
CRPは、時間的永続性から文脈的進化、そしてきめ細かい知覚的推論まで、モデルを進化させることに挑戦する。
完全に自動化されたエンティティ中心パイプラインは、時間的に基底付けられたエンティティ表現のスケーラブルな抽出を可能にし、CRPの基礎を提供する。
最先端のMLLMの評価は、モデルが視覚的遷移や時間的ダイナミクスにまたがってエンティティを頑健に追跡することができず、しばしばコンテキストシフトの下でアイデンティティを幻覚させることを示した。
オープンソース汎用MLLMは、強い知覚的基盤を持つが、時間的コヒーレンスを示す一方、ビデオ固有のMLLMは、時間的コンテキストを捉えながら、幻覚的エンティティのコンテキストを捉えている。
これらの結果から、知覚的基盤と時間的推論の根本的なトレードオフが明らかとなり、物語的理解が統合からのみ現れることが示唆された。
NarrativeTrack は、MLLM における時間的基盤の物語理解を診断し、前進させる最初の体系的なフレームワークを提供する。
関連論文リスト
- Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。
本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。
私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-11-03T18:43:48Z) - Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data [100.5266292850922]
Streferはビデオ大モデルに参照と推論機能を持たせるために設計された合成データ生成フレームワークである。
Streferは、時間的に密度が高くきめ細かなビデオメタデータを擬似アノテーションするデータエンジンを使用して、多様な命令生成データを生成する。
我々のアプローチは、ビデオLLMが空間的および時間的参照を解釈する能力を高め、現実のAIコンパニオンに不可欠な、より汎用的で時空間対応の推論を育む。
論文 参考訳(メタデータ) (2025-09-03T17:33:20Z) - Causality Matters: How Temporal Information Emerges in Video Language Models [17.570777893613137]
ビデオ入力における位置エンコーディングの除去や修正は、時間的理解の性能の低下を最小限に抑えることが判明した。
この振る舞いを説明するために、我々は時間的情報がモデルにどのように組み込まれているかを追跡するための重要な分析実験を行った。
そこで我々は,2つの効率重視戦略を提案する。
論文 参考訳(メタデータ) (2025-08-15T16:33:14Z) - VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。
本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。
我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文 参考訳(メタデータ) (2025-08-04T06:06:06Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。