論文の概要: MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.07250v1
- Date: Mon, 10 Nov 2025 16:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.352788
- Title: MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
- Title(参考訳): MVU-Eval:マルチモーダルLLMのマルチビデオ理解評価に向けて
- Authors: Tianhao Peng, Haochen Wang, Yuanxing Zhang, Zekun Wang, Zili Wang, Ge Zhang, Jian Yang, Shihao Li, Yanghai Wang, Xintao Wang, Houyi Li, Wei Ji, Pengfei Wan, Wenhao Huang, Zhaoxiang Zhang, Jiaheng Liu,
- Abstract要約: MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
- 参考スコア(独自算出の注目度): 69.30140834211194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Multimodal Large Language Models (MLLMs) has expanded AI capabilities to visual modalities, yet existing evaluation benchmarks remain limited to single-video understanding, overlooking the critical need for multi-video understanding in real-world scenarios (e.g., sports analytics and autonomous driving). To address this significant gap, we introduce MVU-Eval, the first comprehensive benchmark for evaluating Multi-Video Understanding for MLLMs. Specifically, our MVU-Eval mainly assesses eight core competencies through 1,824 meticulously curated question-answer pairs spanning 4,959 videos from diverse domains, addressing both fundamental perception tasks and high-order reasoning tasks. These capabilities are rigorously aligned with real-world applications such as multi-sensor synthesis in autonomous systems and cross-angle sports analytics. Through extensive evaluation of state-of-the-art open-source and closed-source models, we reveal significant performance discrepancies and limitations in current MLLMs' ability to perform understanding across multiple videos. The benchmark will be made publicly available to foster future research.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の出現は、AI機能を視覚的モダリティにまで拡張したものの、既存の評価ベンチマークは、現実のシナリオ(スポーツ分析や自動運転など)において、マルチビデオ理解の重要なニーズを見越して、シングルビデオ理解に限られている。
この大きなギャップに対処するため、我々はMLLMのマルチビデオ理解を評価するための最初の総合的なベンチマークであるMVU-Evalを紹介した。
具体的には、MVU-Evalは主に8つのコア能力を評価し、1,824個の厳密にキュレートされた質問応答ペアを、さまざまなドメインから4,959本の動画に分散させ、基本的な知覚タスクと高次推論タスクの両方に対処する。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
最先端のオープンソースおよびクローズドソースモデルの広範な評価を通じて、複数のビデオ間の理解を行うMLLMの現在の能力において、大きなパフォーマンスの相違と限界を明らかにする。
ベンチマークは、将来の研究を促進するために公開されます。
関連論文リスト
- MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues [38.63457491325088]
マルチターン対話におけるMLLM評価のための総合的ビデオ理解ベンチマークMT-Video-Benchを紹介する。
具体的には、MT-Video-Benchは、主に知覚力と対話性に焦点を当てた6つのコア能力を評価し、987個の微調整されたマルチターン対話を包含する。
これらの機能は、インタラクティブスポーツ分析やマルチターンビデオベースのインテリジェントチューリングなど、現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-10-20T16:38:40Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - MOMENTS: A Comprehensive Multimodal Benchmark for Theory of Mind [41.188841829937466]
MoMentS (Multimodal Mental States) は、社会的にインテリジェントなマルチモーダルエージェントを構築するためのベンチマークである。
MoMentSには、7つの異なるToMカテゴリにまたがる2300以上の多重選択質問が含まれている。
いくつかのMLLMを評価し、ビジョンは一般的に性能を改善するが、モデルがそれを効果的に統合するのに苦戦していることを発見した。
論文 参考訳(メタデータ) (2025-07-06T15:06:30Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark [27.487587901232057]
0.5Bから40Bパラメータの90以上のオープンソースおよびプロプライエタリモデルを評価した。
本結果は,これらの講義で提示される認知的課題に対処する上で,現在のモデルが持つ限界を強調するものである。
論文 参考訳(メタデータ) (2025-04-20T17:58:46Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。