論文の概要: Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
- arxiv url: http://arxiv.org/abs/2505.14321v1
- Date: Tue, 20 May 2025 13:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.245135
- Title: Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?
- Title(参考訳): ビデオLLMベンチマークのブレークダウン:知識、空間的知覚、あるいは真の時間的理解?
- Authors: Bo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao,
- Abstract要約: ハイスコアがビデオのダイナミックコンテンツに対するより強力な理解を示すかどうかを曖昧にする2つの大きな制限を同定する。
質問をLLM-Answerable、Semantic、Temporalの3つのドメインに分類する自動パイプラインであるVBenchCompを提案する。
- 参考スコア(独自算出の注目度): 27.128582163847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video understanding benchmarks often conflate knowledge-based and purely image-based questions, rather than clearly isolating a model's temporal reasoning ability, which is the key aspect that distinguishes video understanding from other modalities. We identify two major limitations that obscure whether higher scores truly indicate stronger understanding of the dynamic content in videos: (1) strong language priors, where models can answer questions without watching the video; and (2) shuffling invariance, where models maintain similar performance on certain questions even when video frames are temporally shuffled. To alleviate these issues, we propose VBenchComp, an automated pipeline that categorizes questions into different domains: LLM-Answerable, Semantic, and Temporal. Specifically, LLM-Answerable questions can be answered without viewing the video; Semantic questions remain answerable even when the video frames are shuffled; and Temporal questions require understanding the correct temporal order of frames. The rest of the questions are labeled as Others. This can enable fine-grained evaluation of different capabilities of a video LLM. Our analysis reveals nuanced model weaknesses that are hidden by traditional overall scores, and we offer insights and recommendations for designing future benchmarks that more accurately assess video LLMs.
- Abstract(参考訳): 既存のビデオ理解ベンチマークでは、ビデオ理解と他のモダリティを区別する重要な側面である、モデルの時間的推論能力を明確に分離するのではなく、知識に基づく、純粋にイメージベースの質問を要約することが多い。
ビデオのダイナミックな内容について,高得点が真に深い理解を示すかどうかを明確化するための2つの大きな制限を,(1)ビデオを見ることなく質問に答えられる強い言語先行性,(2)ビデオフレームが時間的にシャッフルされた場合でも,モデルがある種の質問に対して同様のパフォーマンスを維持するシャッフル不変性,である。
これらの問題を緩和するために、LLM-Answerable、Semantic、Temporalといった異なる領域に質問を分類する自動パイプラインであるVBenchCompを提案する。
特に、LLM-Answerableの質問は、ビデオを見ることなく答えることができる; 意味的な質問は、ビデオフレームがシャッフルされているときでも答えられる; 時間的質問は、フレームの正しい時間的順序を理解する必要がある。
残りの質問は他者とラベル付けされている。
これにより、ビデオLLMの様々な能力のきめ細かい評価が可能になる。
分析の結果、従来のスコアに隠された微妙なモデルの弱点が明らかとなり、ビデオLLMをより正確に評価する将来のベンチマークを設計するための洞察と推奨を提供する。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。