論文の概要: MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning
Benchmark for Expert AGI
- arxiv url: http://arxiv.org/abs/2311.16502v3
- Date: Thu, 21 Dec 2023 04:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:57:08.841389
- Title: MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning
Benchmark for Expert AGI
- Title(参考訳): MMMU: エキスパートAGIのための大規模多分野マルチモーダル理解と推論ベンチマーク
- Authors: Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang,
Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu,
Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu,
Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen
- Abstract要約: MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
- 参考スコア(独自算出の注目度): 65.05714028679317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MMMU: a new benchmark designed to evaluate multimodal models on
massive multi-discipline tasks demanding college-level subject knowledge and
deliberate reasoning. MMMU includes 11.5K meticulously collected multimodal
questions from college exams, quizzes, and textbooks, covering six core
disciplines: Art & Design, Business, Science, Health & Medicine, Humanities &
Social Science, and Tech & Engineering. These questions span 30 subjects and
183 subfields, comprising 30 highly heterogeneous image types, such as charts,
diagrams, maps, tables, music sheets, and chemical structures. Unlike existing
benchmarks, MMMU focuses on advanced perception and reasoning with
domain-specific knowledge, challenging models to perform tasks akin to those
faced by experts. The evaluation of 14 open-source LMMs as well as the
proprietary GPT-4V(ision) and Gemini highlights the substantial challenges
posed by MMMU. Even the advanced GPT-4V and Gemini Ultra only achieve
accuracies of 56% and 59% respectively, indicating significant room for
improvement. We believe MMMU will stimulate the community to build
next-generation multimodal foundation models towards expert artificial general
intelligence.
- Abstract(参考訳): MMMUは,大学レベルの教科知識と意図的推論を必要とする大規模多分野タスクのマルチモーダルモデルを評価するために設計された新しいベンチマークである。
mmmuには、大学の試験、クイズ、教科書から精細に収集された11.5kのマルチモーダルな質問が含まれており、アートとデザイン、ビジネス、科学、健康と医学、人文科学と社会科学、技術と工学の6つの分野をカバーしている。
これらの質問は30の被験者と183のサブフィールドにまたがり、チャート、図表、地図、テーブル、楽譜、化学構造など30の非常に異質な画像タイプで構成されている。
既存のベンチマークとは異なり、MMMUは高度な認識とドメイン固有の知識による推論に焦点を当てており、専門家が直面しているようなタスクを実行するための挑戦的なモデルである。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
高度な GPT-4V と Gemini Ultra でさえそれぞれ 56% と 59% の精度しか達成していないため、改善の余地は大きい。
我々はMMMUがコミュニティを刺激し、専門家の汎用人工知能に向けた次世代のマルチモーダル基盤モデルを構築するだろうと考えている。
関連論文リスト
- OlympiadBench: A Challenging Benchmark for Promoting AGI with
Olympiad-Level Bilingual Multimodal Scientific Problems [63.451205097356926]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションから8,952の問題を取り上げている。
最も優れたモデルであるGPT-4Vは、オリンピアドベンチの平均スコアは17.23%に達し、物理では11.28%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology [14.944207181507135]
大規模マルチモーダルモデル(LMM)のための,最大かつ高品質なエキスパート検証型病理診断ベンチマークPathMMUを紹介する。
様々なソースから33,428のマルチモーダルなマルチチョイス質問と24,067のイメージで構成され、それぞれに正しい回答の説明が添えられている。
PathMMUの構築はGPT-4Vの高度な機能を活用し、3万以上の画像キャプチャペアを使用してキャプションを強化し、対応するQ&Aを生成する。
論文 参考訳(メタデータ) (2024-01-29T17:59:19Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [71.65760716397347]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge
Evaluation [61.56563631219381]
我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。
Xiezhiは、13の被験者から249,587の質問、Xiezhi- SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問で構成されている。
論文 参考訳(メタデータ) (2023-06-09T09:52:05Z) - M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models [35.17226595231825]
M3KE(M3KE)は、多層多目的知識評価ベンチマークである。
中国語の大規模言語モデルによって得られた知識を測定するために開発された。
71のタスクから20,477の質問を集めました。
論文 参考訳(メタデータ) (2023-05-17T14:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。