論文の概要: CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2401.11944v4
- Date: Mon, 04 Nov 2024 13:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:45:23.035938
- Title: CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
- Title(参考訳): CMMMU:中国の大規模多分野マルチモーダル理解ベンチマーク
- Authors: Ge Zhang, Xinrun Du, Bei Chen, Yiming Liang, Tongxu Luo, Tianyu Zheng, Kang Zhu, Yuyang Cheng, Chunpu Xu, Shuyue Guo, Haoran Zhang, Xingwei Qu, Junjie Wang, Ruibin Yuan, Yizhi Li, Zekun Wang, Yudong Liu, Yu-Hsuan Tsai, Fengji Zhang, Chenghua Lin, Wenhao Huang, Jie Fu,
- Abstract要約: 大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
- 参考スコア(独自算出の注目度): 53.24896036161829
- License:
- Abstract: As the capabilities of large multimodal models (LMMs) continue to advance, evaluating the performance of LMMs emerges as an increasing need. Additionally, there is an even larger gap in evaluating the advanced knowledge and reasoning abilities of LMMs in non-English contexts such as Chinese. We introduce CMMMU, a new Chinese Massive Multi-discipline Multimodal Understanding benchmark designed to evaluate LMMs on tasks demanding college-level subject knowledge and deliberate reasoning in a Chinese context. CMMMU is inspired by and strictly follows the annotation and analysis pattern of MMMU. CMMMU includes 12k manually collected multimodal questions from college exams, quizzes, and textbooks, covering six core disciplines: Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, and Tech & Engineering, like its companion, MMMU. These questions span 30 subjects and comprise 39 highly heterogeneous image types, such as charts, diagrams, maps, tables, music sheets, and chemical structures. CMMMU focuses on complex perception and reasoning with domain-specific knowledge in the Chinese context. We evaluate 11 open-source LLMs and one proprietary GPT-4V(ision). Even GPT-4V only achieves accuracies of 42%, indicating a large space for improvement. CMMMU will boost the community to build the next-generation LMMs towards expert artificial intelligence and promote the democratization of LMMs by providing diverse language contexts.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の性能向上が進むにつれ,LMMの性能評価の必要性が高まっている。
さらに、中国語のような非英語の文脈において、LMMの高度な知識と推論能力を評価するには、さらに大きなギャップがある。
CMMMUは、中国における大学レベルの教科知識と意図的推論を必要とするタスクにおいて、LMMを評価するために設計された、中国の大規模多分野マルチモーダル理解(Multimodal Understanding)ベンチマークである。
CMMMUはMMMUのアノテーションと分析パターンにインスパイアされ、厳密に従っている。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート&デザイン、ビジネス、サイエンス、ヘルス&メディカル、人文科学、テクノロジー&エンジニアリングの6つの中核分野をカバーしている。
これらの質問は30の被験者に及び、図、図、地図、テーブル、音楽シート、化学構造など、39の非常に異質なイメージタイプで構成されている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
我々は11個のオープンソースLCMと1つのプロプライエタリなGPT-4V(ision)を評価した。
GPT-4Vでさえ42%の精度しか達成せず、改善の余地が大きいことを示している。
CMMMUは、人工知能の専門家に向けて次世代のLMMを構築するためのコミュニティを強化し、多様な言語コンテキストを提供することでLMMの民主化を促進する。
関連論文リスト
- CAMEL-Bench: A Comprehensive Arabic LMM Benchmark [10.20074702234283]
我々は,4億人以上の話者を対象とするアラビア語の総合的LMM評価ベンチマークを開発した。
提案するベンチマークは,マルチイメージ理解,複雑な視覚知覚,手書き文書理解,ビデオ理解,医用画像,植物病,リモートセンシングによる土地利用理解を含む8つのサブドメインと38のサブドメインから構成される。
論文 参考訳(メタデータ) (2024-10-24T17:59:38Z) - JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (2024-10-22T17:59:56Z) - CMM-Math: A Chinese Multimodal Math Dataset To Evaluate and Enhance the Mathematics Reasoning of Large Multimodal Models [35.9843681685377]
我々は,LMMの数学的推論を評価するために,中国のマルチモーダル数学(CMM-Math)データセットをリリースする。
CMM-Mathには28,000以上の高品質のサンプルがあり、中国の小学校から高校まで12学年の詳細な解がある。
複数画像とテキストセグメントの混合入力による問題に対処するマルチモーダル数学的LMM(Math-LMM)を提案する。
論文 参考訳(メタデータ) (2024-09-04T16:00:21Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation [55.2480439325792]
LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。
中国大学入学試験(GAokao-MM)に基づくマルチモーダルベンチマークであるGAokao-MMを提案する。
GPT-4-Vison(48.1%)、Qwen-VL-Plus(41.2%)、Gemini-Pro-Vision(35.1%)が上位3位である。
論文 参考訳(メタデータ) (2024-02-24T06:57:15Z) - CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning [16.032320995230734]
CMMUは,中国語における多モーダル・多型質問理解と推論のための新しいベンチマークである。
CMMUは7科目で3,603質問で構成され、小学校から高校までの知識をカバーしている。
本稿では,複数質問に対する位置誤差分散という評価手法を提案する。
論文 参考訳(メタデータ) (2024-01-25T08:22:10Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。