論文の概要: MVPBench: A Multi-Video Perception Evaluation Benchmark for Multi-Modal Video Understanding
- arxiv url: http://arxiv.org/abs/2603.22756v1
- Date: Tue, 24 Mar 2026 03:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.280908
- Title: MVPBench: A Multi-Video Perception Evaluation Benchmark for Multi-Modal Video Understanding
- Title(参考訳): MVPBench:マルチモーダルビデオ理解のためのマルチビデオ知覚評価ベンチマーク
- Authors: Purui Bai, Tao Wu, Jiayang Sun, Xinyue Liu, Huaibo Huang, Ran He,
- Abstract要約: 既存のベンチマークは、静的画像やシングルビデオに限られており、複数のビデオにわたる複雑なインタラクションを見下ろしている。
MVPBenchは、ビデオシーケンスから関連情報を抽出して情報決定を行うモデルを評価するために設計された、14のサブタスクを備えた、新しいベンチマークである。
MVPBenchには、既存のデータセットと手動で注釈付きクリップから得られた2.7Kのビデオクリップを含む5Kの質問回答テストが含まれている。
- 参考スコア(独自算出の注目度): 36.60861786811499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Large Language Models (LLMs) has spurred growing interest in Multi-modal LLMs (MLLMs) and motivated the development of benchmarks to evaluate their perceptual and comprehension abilities. Existing benchmarks, however, are limited to static images or single videos, overlooking the complex interactions across multiple videos. To address this gap, we introduce the Multi-Video Perception Evaluation Benchmark (MVPBench), a new benchmark featuring 14 subtasks across diverse visual domains designed to evaluate models on extracting relevant information from video sequences to make informed decisions. MVPBench includes 5K question-answering tests involving 2.7K video clips sourced from existing datasets and manually annotated clips. Extensive evaluations reveal that current models struggle to process multi-video inputs effectively, underscoring substantial limitations in their multi-video comprehension. We anticipate MVPBench will drive advancements in multi-video perception.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、MLLM(Multi-modal LLM)への関心が高まり、その知覚と理解能力を評価するためのベンチマークの開発が動機となった。
しかし既存のベンチマークは、静的画像やシングルビデオに限られており、複数のビデオ間の複雑な相互作用を見下ろしている。
このギャップに対処するために、ビデオシーケンスから関連情報を抽出して情報決定を行うモデルを評価するために設計された、様々な視覚領域にまたがる14のサブタスクを特徴とする新しいベンチマークである、Multi-Video Perception Evaluation Benchmark (MVPBench)を紹介した。
MVPBenchには、既存のデータセットと手動で注釈付きクリップから得られた2.7Kのビデオクリップを含む5Kの質問回答テストが含まれている。
大規模な評価では、現在のモデルはマルチビデオ入力を効果的に処理するのに苦労しており、マルチビデオの理解にかなりの制限があることが示されている。
我々はMVPBenchがマルチビデオ知覚の進歩を促進することを期待する。
関連論文リスト
- A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding [69.31609753061137]
マルチモーダルな大規模言語モデルはシングルビデオ理解において高いパフォーマンスを達成しているが、複数のビデオにまたがる推論能力は依然として限られている。
既存のアプローチでは、複数のビデオを1つの入力にまとめて直接推論を行い、トレーニングと推論のミスマッチを導入する。
現在のマルチビデオベンチマークでは、主にイベントレベルの比較を強調しており、アイデンティティレベルのマッチング、きめ細かい識別、構造化されたマルチステップ推論が過小評価されている。
視覚ツール,タスク固有のスキル,コンフリクト対応検証機構を統合した,多視点理解のためのスキル強化型エージェントフレームワークSAMAを提案する。
論文 参考訳(メタデータ) (2026-03-16T02:09:48Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。