論文の概要: Reasoning over Video: Evaluating How MLLMs Extract, Integrate, and Reconstruct Spatiotemporal Evidence
- arxiv url: http://arxiv.org/abs/2603.13091v1
- Date: Fri, 13 Mar 2026 15:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.1645
- Title: Reasoning over Video: Evaluating How MLLMs Extract, Integrate, and Reconstruct Spatiotemporal Evidence
- Title(参考訳): ビデオによる推論:MLLMが時空間的証拠をどのように抽出し、統合し、再構成するかを評価する
- Authors: Seunghwan Bang, Hwanjun Song,
- Abstract要約: 大規模言語モデルが抽象的時間的推論を行うことができるかどうかは不明である。
本稿では,抽象的推論タスクと抽出的推論タスクを組み合わせたベンチマークVA-BENCHを提案する。
- 参考スコア(独自算出の注目度): 22.019359275289485
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The growing interest in embodied agents increases the demand for spatiotemporal video understanding, yet existing benchmarks largely emphasize extractive reasoning, where answers can be explicitly presented within spatiotemporal events. It remains unclear whether multimodal large language models can instead perform abstractive spatiotemporal reasoning, which requires integrating observations over time, combining dispersed cues, and inferring implicit spatial and contextual structure. To address this gap, we formalize abstractive spatiotemporal reasoning from videos by introducing a structured evaluation taxonomy that systematically targets its core dimensions and construct a controllable, scenario-driven synthetic egocentric video dataset tailored to evaluate abstractive spatiotemporal reasoning capabilities, spanning object-, room-, and floor-plan-level scenarios. Based on this framework, we present VAEX-BENCH, a benchmark comprising five abstractive reasoning tasks together with their extractive counterparts. Our extensive experiments compare the performance of state-of-the-art MLLMs under extractive and abstractive settings, exposing their limitations on abstractive tasks and providing a fine-grained analysis of the underlying bottlenecks. The dataset will be released soon.
- Abstract(参考訳): エンボディード・エージェントへの関心が高まり、時空間的ビデオ理解の需要が高まる一方で、既存のベンチマークでは時空間的イベントの中で回答を明示的に提示する抽出的推論が重視されている。
マルチモーダルな言語モデルが抽象的時空間推論を実行できるかどうかは不明だが、これは時間とともに観測を統合すること、分散された手がかりを組み合わせること、暗黙の空間的・文脈的構造を推測することを必要とする。
このギャップに対処するために、我々は、ビデオから抽象時空間推論を形式化し、その中核次元を体系的にターゲットとした構造的評価分類を導入し、オブジェクト、部屋、フロアプランレベルのシナリオにまたがる抽象時空間推論能力を評価するための制御可能なシナリオ駆動型合成エゴセントリックビデオデータセットを構築した。
この枠組みに基づいて,5つの抽象的推論タスクと抽出的推論タスクからなるベンチマークVAEX-BENCHを提案する。
抽出および抽象的条件下での最先端MLLMの性能を比較し,抽象的課題に対する制限を明らかにし,その基盤となるボトルネックを詳細に分析した。
データセットはまもなくリリースされる予定だ。
関連論文リスト
- Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - Abstract Activation Spaces for Content-Invariant Reasoning in Large Language Models [28.102903742881576]
本稿では,構造的推論を語彙的意味論から明確に分離する抽象誘導推論フレームワークを提案する。
本稿では,抽象化整合型ステアリングがコンテンツ駆動型エラーを低減し,妥当性に敏感な性能を向上させることを示す。
論文 参考訳(メタデータ) (2026-02-02T18:48:44Z) - NarrativeTrack: Evaluating Video Language Models Beyond the Frame [10.244330591706744]
MLLMにおける物語理解を評価する最初のベンチマークであるNarrativeTrackを紹介する。
映像を構成要素に分解し,構成推論(CRP)フレームワークを用いて連続性を検証する。
CRPは、時間的永続性から文脈的進化、そしてきめ細かい知覚的推論まで、モデルを進化させることに挑戦する。
論文 参考訳(メタデータ) (2026-01-03T07:12:55Z) - Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。
本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。
私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-11-03T18:43:48Z) - Can an LLM Induce a Graph? Investigating Memory Drift and Context Length [11.214847796972705]
最近提案された評価ベンチマークは、大規模言語モデル(LLM)の有効文脈長と忘れ傾向を特徴付けることを目的としている。
我々は、これらのモデルをより複雑な推論タスクで評価し、テキストから構造化された関係知識を誘導する必要があると主張している。
以上の結果から,LLMは記憶のドリフトや文脈記憶を,このような関係推論を行う場合よりもはるかに短い有効長で表現し始めることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-04T01:56:07Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。