論文の概要: TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs
- arxiv url: http://arxiv.org/abs/2602.00288v1
- Date: Fri, 30 Jan 2026 20:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.097414
- Title: TimeBlind: A Spatio-Temporal Compositionality Benchmark for Video LLMs
- Title(参考訳): TimeBlind:ビデオLLMの時空間構成性ベンチマーク
- Authors: Baiqi Li, Kangyi Zhao, Ce Zhang, Chancharik Mitra, Jean de Dieu Nyandwi, Gedas Bertasius,
- Abstract要約: TimeBlindは、詳細な時間的理解のための診断ベンチマークである。
我々は600のインスタンスで20以上の最先端MLLMを評価した。
最高のMLLMのインスタンス精度は48.2%に過ぎず、人間のパフォーマンス(98.2%)をはるかに下回っている。
- 参考スコア(独自算出の注目度): 24.299498301173255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained spatio-temporal understanding is essential for video reasoning and embodied AI. Yet, while Multimodal Large Language Models (MLLMs) master static semantics, their grasp of temporal dynamics remains brittle. We present TimeBlind, a diagnostic benchmark for compositional spatio-temporal understanding. Inspired by cognitive science, TimeBlind categorizes fine-grained temporal understanding into three levels: recognizing atomic events, characterizing event properties, and reasoning about event interdependencies. Unlike benchmarks that conflate recognition with temporal reasoning, TimeBlind leverages a minimal-pairs paradigm: video pairs share identical static visual content but differ solely in temporal structure, utilizing complementary questions to neutralize language priors. Evaluating over 20 state-of-the-art MLLMs (e.g., GPT-5, Gemini 3 Pro) on 600 curated instances (2400 video-question pairs), reveals that the Instance Accuracy (correctly distinguishing both videos in a pair) of the best performing MLLM is only 48.2%, far below the human performance (98.2%). These results demonstrate that even frontier models rely heavily on static visual shortcuts rather than genuine temporal logic, positioning TimeBlind as a vital diagnostic tool for next-generation video understanding. Dataset and code are available at https://baiqi-li.github.io/timeblind_project/ .
- Abstract(参考訳): 微細な時空間理解は、ビデオ推論とAIの具体化に不可欠である。
しかし、Multimodal Large Language Models (MLLM)は静的セマンティクスをマスターするが、時間的ダイナミクスの把握は依然として不安定である。
合成時空間理解のための診断ベンチマークであるTimeBlindを提案する。
認知科学にインスパイアされたTimeBlindは、微粒な時間的理解を3つのレベルに分類する。
TimeBlindは、時間的推論と認識を補完するベンチマークとは異なり、最小ペアのパラダイムを活用している: ビデオペアは同一の静的なビジュアルコンテンツを共有するが、時間的構造だけが異なる。
最先端のMLLM(例: GPT-5、Gemini 3 Pro)を600のキュレートされたインスタンス(2400のビデオクエストペア)で評価すると、最高のパフォーマンスを持つMLLMのインスタンス精度(正確には2つの動画を区別する)はわずか48.2%であり、人間のパフォーマンス(98.2%)よりはるかに低い。
これらの結果は、フロンティアモデルでさえ、真の時間論理よりも静的な視覚的ショートカットに強く依存していることを示し、TimeBlindを次世代のビデオ理解にとって重要な診断ツールとして位置づけている。
データセットとコードはhttps://baiqi-li.github.io/timeblind_project/で公開されている。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - RTime-QA: A Benchmark for Atomic Temporal Event Understanding in Large Multi-modal Models [85.59909303288921]
大規模マルチモーダルモデル(LMM)の原子時間事象理解能力を評価するための新しいベンチマークRTime-QAを紹介する。
RTime-QAは822の高品質で慎重に編集されたビデオテキストの質問で構成されており、それぞれが人間の専門家によって慎重に注釈付けされている。
LMMの時間的事象理解能力を向上するために、RTime-QAと同様のアノテーションプロセスを利用する14k命令チューニングデータセットであるRTime-ITを導入する。
論文 参考訳(メタデータ) (2025-05-25T12:44:12Z) - Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
本稿では,TemporalVQAという評価ベンチマークを提案する。
第1部では、時間的に連続するビデオフレームを分析してイベントのシーケンスを決定するためにMLLMが必要である。
第2部では、複数選択の質問としてフレーム化された時間差のある画像ペアを提示し、MLLMに秒から数年のオプションで画像間のタイムラプスを見積もる。
GPT-4o や Gemini-1.5-Pro などのモデルを含む先進MLLM の評価は,重要な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。