論文の概要: MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
- arxiv url: http://arxiv.org/abs/2501.12380v1
- Date: Tue, 21 Jan 2025 18:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:37.391493
- Title: MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
- Title(参考訳): MMVU: エキスパートレベル多分野ビデオ理解の測定
- Authors: Yilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan,
- Abstract要約: ビデオ理解における基礎モデルを評価するための総合的専門家レベルのマルチディシプリンのベンチマークであるMMVUを紹介する。
MMVUには、科学、医療、人文科学、社会科学、工学という4つの中核分野にまたがる27の科目にわたる専門家による3000の質問が含まれている。
まず、ドメイン固有の知識を適用し、専門家レベルの推論を実行して、専門的なドメインビデオを分析し、基本的な視覚的知覚を超えて、モデルに挑戦する。
- 参考スコア(独自算出の注目度): 34.79283799754043
- License:
- Abstract: We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark for evaluating foundation models in video understanding. MMVU includes 3,000 expert-annotated questions spanning 27 subjects across four core disciplines: Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to prior benchmarks, MMVU features three key advancements. First, it challenges models to apply domain-specific knowledge and perform expert-level reasoning to analyze specialized-domain videos, moving beyond the basic visual perception typically assessed in current video benchmarks. Second, each example is annotated by human experts from scratch. We implement strict data quality controls to ensure the high quality of the dataset. Finally, each example is enriched with expert-annotated reasoning rationals and relevant domain knowledge, facilitating in-depth analysis. We conduct an extensive evaluation of 32 frontier multimodal foundation models on MMVU. The latest System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest performance among the tested models. However, they still fall short of matching human expertise. Through in-depth error analyses and case studies, we offer actionable insights for future advancements in expert-level, knowledge-intensive video understanding for specialized domains.
- Abstract(参考訳): ビデオ理解における基礎モデルを評価するための総合的専門家レベルのマルチディシプリンのベンチマークであるMMVUを紹介する。
MMVUには、科学、医療、人文科学、社会科学、工学という4つの中核分野にまたがる27の科目にわたる専門家による3000の質問が含まれている。
以前のベンチマークと比較すると、MMVUには3つの重要な進歩がある。
まず、ドメイン固有の知識を適用し、専門家レベルの推論を実行して、専門的なドメインビデオを分析し、現在のビデオベンチマークで一般的に評価される基本的な視覚的知覚を超えて、モデルに挑戦する。
第二に、それぞれの例はスクラッチから人間の専門家によって注釈付けされる。
データセットの高品質を保証するために、厳格なデータ品質制御を実装しています。
最後に、各例には専門家に注釈付けされた推論論理と関連するドメイン知識が組み込まれ、詳細な分析が促進されます。
MMVUにおけるフロンティア・マルチモーダル基礎モデルの広範な評価を行う。
最新のSystem-2対応モデルであるo1とGemini 2.0 Flash Thinkingは、テストされたモデルの中で最高のパフォーマンスを実現している。
しかし、それらは人間の専門知識と一致しない。
詳細なエラー分析とケーススタディを通じて、専門分野の専門家レベル、知識集約型ビデオ理解における今後の進歩に対する実用的な洞察を提供する。
関連論文リスト
- TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [28.883607056108605]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model [22.188795668927586]
ビデオファウンデーションモデル(VFM)は近年大きな進歩を遂げている。
既存のベンチマークと評価プロトコルは、比較的低い多様性、高い評価コスト、飽和したパフォーマンスメトリクスによって制限されることが多い。
これらの問題、すなわちVideoEvalに対処するための包括的なベンチマークスイートを構築しています。
論文 参考訳(メタデータ) (2024-07-09T01:49:08Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.52885252910693]
MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。
MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。
この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文 参考訳(メタデータ) (2024-06-12T16:54:54Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。