論文の概要: MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2409.02813v2
- Date: Tue, 10 Sep 2024 12:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 12:24:07.319706
- Title: MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark
- Title(参考訳): MMMU-Pro: よりロバストな多分野マルチモーダル理解ベンチマーク
- Authors: Xiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig,
- Abstract要約: 本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
- 参考スコア(独自算出の注目度): 77.93283927871758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces MMMU-Pro, a robust version of the Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro rigorously assesses multimodal models' true understanding and reasoning capabilities through a three-step process based on MMMU: (1) filtering out questions answerable by text-only models, (2) augmenting candidate options, and (3) introducing a vision-only input setting where questions are embedded within images. This setting challenges AI to truly "see" and "read" simultaneously, testing a fundamental human cognitive skill of seamlessly integrating visual and textual information. Results show that model performance is substantially lower on MMMU-Pro than on MMMU, ranging from 16.8% to 26.9% across models. We explore the impact of OCR prompts and Chain of Thought (CoT) reasoning, finding that OCR prompts have minimal effect while CoT generally improves performance. MMMU-Pro provides a more rigorous evaluation tool, closely mimicking real-world scenarios and offering valuable directions for future research in multimodal AI.
- Abstract(参考訳): 本稿では,MMMU(Massive Multi-discipline Multi-modal Understanding and Reasoning)ベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは,(1) テキストのみのモデルで答えられる質問をフィルタリングし,(2) 候補を拡大し,(3) 画像内に質問が埋め込まれた視覚のみの入力設定を導入する。
この設定は、視覚情報とテキスト情報をシームレスに統合する基本的な人間の認知スキルをテストすることによって、AIに真に「見る」と同時に「読む」よう促す。
その結果、MMMU-Proではモデル全体の16.8%から26.9%の範囲でモデル性能がMMMU-Proよりも大幅に低いことが示された。
我々は、OCRプロンプトとCoT(Chain of Thought)推論の影響について検討し、OCRプロンプトが最小限の効果を持つのに対して、CoTは一般に性能を向上することを示した。
MMMU-Proはより厳格な評価ツールを提供し、現実世界のシナリオを忠実に模倣し、将来のマルチモーダルAI研究に有用な方向を提供する。
関連論文リスト
- MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation [38.076276626337766]
MMEvalProは、トリロジー評価パイプラインとより厳格なメトリクスを通じて、Type-Iエラーを避けるために設計されたベンチマークである。
MMEvalProには2,138ドルの質問用三つ子があり、合計6,414ドルの質問がある。
既存のベンチマークと比較すると、最新のLLMとLMMによる実験では、MMEvalProの方が難しいことが示されています。
論文 参考訳(メタデータ) (2024-06-29T15:28:45Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - DUMA: Reading Comprehension with Transposition Thinking [107.89721765056281]
MRC (Multi-choice Machine Reading) は、解答オプションのセットから正しい解答を決定するためのモデルを必要とする。
新しい Dual Multi-head Co-Attention (DUMA) モデルは、多選択MRC問題を解決する人間の転置思考プロセスにインスパイアされている。
論文 参考訳(メタデータ) (2020-01-26T07:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。