論文の概要: VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
- arxiv url: http://arxiv.org/abs/2505.14640v1
- Date: Tue, 20 May 2025 17:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.646089
- Title: VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation
- Title(参考訳): VideoEval-Pro:ロバストでリアルなロングビデオ理解評価
- Authors: Wentao Ma, Weiming Ren, Yiming Jia, Zhuofeng Li, Ping Nie, Ge Zhang, Wenhu Chen,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は,LVU(Long Video Understanding)の強力なツールとして登場した。
既存のベンチマークのほとんどは、正しい答えを推測する可能性から評価結果が膨らむ多重選択質問(MCQ)に大きく依存している。
本稿では,リアルタイムなLVUベンチマークであるVideoEval-Proを提案する。
- 参考スコア(独自算出の注目度): 32.91687961164014
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs' long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance ($>$25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は近年,LVU (Long Video Understanding) の強力なツールとして登場し,その性能評価のための標準LVUベンチマークの開発が進められている。
しかし,本研究では,既存のLVUベンチマークに対して,かなり厳密な教訓を明らかにしている。
まず、既存のベンチマークのほとんどは、正しい答えを推測する可能性から評価結果が膨らむマルチチョイス質問(MCQ)に大きく依存している。
例えば、Gemini-1.5-Pro は Video-MME 上の長いビデオからランダムなフレームから 50 % 以上の精度を達成できる。
また,フレーム数の増加が必ずしも既存のベンチマークの改善につながるとは限りません。
その結果、現在のLVUベンチマークの有効性と堅牢性は損なわれ、LMMの長時間ビデオ理解能力の忠実な評価を妨げている。
この問題に対処するために,本研究では,ビデオ全体の理解を本当に必要とする,オープンエンドのショートアンサーによる質問を含む,リアルなLVUベンチマークであるVideoEval-Proを提案する。
VideoEval-Proは、認識と推論タスクを通じて、セグメントレベルとフルビデオの理解を評価する。
1)ビデオLMMは、MCQと比較して、オープンエンドの質問に対して劇的なパフォーマンス($25\%)の低下を示し、(2)驚くほど高いMCQスコアは、VideoEval-Proのより高いオープンエンドのスコアを導き出さない、(3)他のMCQベンチマークと比較して、VideoEval-Proは、入力フレームの数を増やすことでより恩恵を受ける。
以上の結果から,VideoEval-Proはより現実的で信頼性の高い長大なビデオ理解手段であり,この領域の進歩の明確なビューを提供する。
関連論文リスト
- RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video [19.373906873461703]
RTV-BenchはMLLMリアルタイムビデオ解析のためのきめ細かいベンチマークである。
RTV-Benchは552の多様なビデオ(167.2時間)と4,631の高品質QAペアを含んでいる。
論文 参考訳(メタデータ) (2025-05-04T10:55:21Z) - MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval [61.414236415351446]
長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
論文 参考訳(メタデータ) (2025-02-18T05:50:23Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。