論文の概要: TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2605.09904v2
- Date: Tue, 12 May 2026 03:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:07.042686
- Title: TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models
- Title(参考訳): TOC-Bench:ビデオ大言語モデルのための時間オブジェクト一貫性ベンチマーク
- Authors: Junzhe Chen, Siyuan Meng, Yuxi Chen, Man Zhao, Wenyao Gui, Xiaojie Guo,
- Abstract要約: ビデオ大言語モデル(ビデオ-LLM)は、一般的なビデオ理解において大きな進歩を遂げているが、時間的オブジェクトの一貫性を維持する能力はいまだ探索されていない。
ビデオLLMにおける時間的オブジェクトの一貫性を評価するための診断ベンチマークであるTOC-Benchを紹介する。
- 参考スコア(独自算出の注目度): 9.648992690108086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (Video-LLMs) have made strong progress in general video understanding, but their ability to maintain temporal object consistency remains underexplored. Existing benchmarks often emphasize event recognition, action understanding, or coarse temporal reasoning, while rarely testing whether models can preserve the identity, state, and continuity of the same object across occlusion, disappearance, reappearance, state transitions, and cross-object interactions. We introduce TOC-Bench, a diagnostic benchmark for evaluating temporal object consistency in Video-LLMs. TOC-Bench is object-track grounded: each queried subject is linked to a per-frame trajectory and a structured temporal event timeline. To ensure that questions require temporally ordered visual evidence rather than language priors, single-frame shortcuts, or unordered frame cues, we design a three-layer temporal-necessity filtering protocol, which removes 60.7% of candidate QA pairs and retains 17,900 temporally dependent items across 10 diagnostic dimensions. From this pool, we construct a human-verified benchmark with 2,323 high-quality QA pairs over 1,951 videos. Experiments on representative Video-LLMs show that temporal object consistency remains a major unsolved challenge, with notable weaknesses in event counting, event ordering, identity-sensitive reasoning, and hallucination-aware verification, even when models perform well on general video understanding benchmarks. These results suggest that object-centric temporal coherence is a key bottleneck for current Video-LLMs, and that TOC-Bench provides a focused platform for diagnosing and improving object-aware temporal reasoning. The resource is available at https://github.com/cjzcjz666/toc_bench.git.
- Abstract(参考訳): ビデオ大言語モデル(ビデオ-LLM)は、一般的なビデオ理解において大きな進歩を遂げているが、時間的オブジェクトの一貫性を維持する能力はいまだ探索されていない。
既存のベンチマークでは、イベント認識、アクション理解、あるいは粗い時間的推論が強調されることが多いが、モデルが同一オブジェクトの同一性、状態、連続性を、隠蔽、消失、再出現、状態遷移、オブジェクト間の相互作用で保持できるかどうかを検査することは稀である。
ビデオLLMにおける時間的オブジェクトの一貫性を評価するための診断ベンチマークであるTOC-Benchを紹介する。
TOC-Benchはオブジェクトトラックで、各クエリ対象はフレーム単位の軌跡と時間的イベントタイムラインにリンクされる。
言語先行や単一フレームのショートカット,あるいは非順序のフレームキューよりも,時間的に順序付けられた視覚的エビデンスを必要とすることを保証するため,10次元にわたる時間的依存項目の60.7%を除去し,時間的依存項目を17,900個保持する3層時間的必要フィルタリングプロトコルを設計する。
このプールから,1,951本以上の高品質QAペアが2,323本ある人間検証ベンチマークを構築した。
代表的なビデオ-LLMの実験では、時間的オブジェクトの一貫性は依然として未解決の課題であり、一般的なビデオ理解ベンチマークでモデルがうまく機能している場合でも、イベントカウント、イベントオーダリング、アイデンティティに敏感な推論、幻覚認識の検証において顕著な弱点がある。
これらの結果は,現在のビデオLLMにおいて,オブジェクト中心の時間的コヒーレンスが重要なボトルネックであり,TOC-Benchがオブジェクト認識の時間的推論の診断と改善に焦点を絞ったプラットフォームを提供することを示唆している。
リソースはhttps://github.com/cjzcjz666/toc_bench.gitで入手できる。
関連論文リスト
- Tracking the Truth: Object-Centric Spatio-Temporal Monitoring for Video Large Language Models [154.39583176906893]
大規模言語モデル(ML)は高度な理解を持ち、シーンにおける幻覚の傾向が高い。
これは、時間的モニタリングの失敗、オブジェクトの動的アイデンティティ、状態、そして時間とともに関係を永続的に追跡する能力に起因している、と我々は主張する。
既存のベンチマークでは、局所的な視覚的手がかりや統計的先行によってしばしば解決される1つの最終回答クエリに頼って、この欠陥を曖昧にしている。
論文 参考訳(メタデータ) (2026-05-09T14:32:36Z) - DATE: Dynamic Absolute Time Enhancement for Long Video Understanding [8.720269393713451]
長期ビデオ理解はマルチモーダル大言語モデル(MLLM)の根本的な課題であり続けている
MLLMにおける時間的意識を高める動的絶対時間拡張(DATE)を提案する。
本稿では,意味的関連性と時間的関連性の両方を保証するための2段階アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:49:22Z) - When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - Causality Matters: How Temporal Information Emerges in Video Language Models [17.570777893613137]
ビデオ入力における位置エンコーディングの除去や修正は、時間的理解の性能の低下を最小限に抑えることが判明した。
この振る舞いを説明するために、我々は時間的情報がモデルにどのように組み込まれているかを追跡するための重要な分析実験を行った。
そこで我々は,2つの効率重視戦略を提案する。
論文 参考訳(メタデータ) (2025-08-15T16:33:14Z) - V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning [40.18308199837137]
これらの問題点に対処するために,ビデオS-テンポラル推論(V-STa)ベンチマークを導入する。
我々は,ビデオLLMの時空間推論プロセスを実現するためのデータセットを構築した。
14のビデオ-LLMによる実験では、現在のビデオ-LLMと、堅牢で一貫性のある推論の必要性の間に大きなギャップが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:44Z) - TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。