論文の概要: CMMU: A Benchmark for Chinese Multi-modal Multi-type Question
Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2401.14011v1
- Date: Thu, 25 Jan 2024 08:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:22:05.438389
- Title: CMMU: A Benchmark for Chinese Multi-modal Multi-type Question
Understanding and Reasoning
- Title(参考訳): CMMU:中国のマルチモーダル質問理解と推論のためのベンチマーク
- Authors: Zheqi He, Xinya Wu, Pengfei Zhou, Richeng Xuan, Guang Liu, Xi Yang,
Qiannan Zhu, Hua Huang
- Abstract要約: CMMUは,中国語における多モーダル・多型質問理解と推論のための新しいベンチマークである。
CMUは7科目で3,603の質問で構成され、小学校から高校までの知識をカバーしている。
本稿では,複数質問に対する評価を行うShiftCheckという厳格な評価戦略を提案する。
- 参考スコア(独自算出の注目度): 16.72283636562743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models(MLLMs) have achieved remarkable progress
and demonstrated powerful knowledge comprehension and reasoning abilities.
However, the mastery of domain-specific knowledge, which is essential for
evaluating the intelligence of MLLMs, continues to be a challenge. Current
multi-modal benchmarks for domain-specific knowledge concentrate on
multiple-choice questions and are predominantly available in English, which
imposes limitations on the comprehensiveness of the evaluation. To this end, we
introduce CMMU, a novel benchmark for multi-modal and multi-type question
understanding and reasoning in Chinese. CMMU consists of 3,603 questions in 7
subjects, covering knowledge from primary to high school. The questions can be
categorized into 3 types: multiple-choice, multiple-response, and
fill-in-the-blank, bringing greater challenges to MLLMs. In addition, we
propose a rigorous evaluation strategy called ShiftCheck for assessing
multiple-choice questions. The strategy aims to reduce position bias, minimize
the influence of randomness on correctness, and perform a quantitative analysis
of position bias. We evaluate seven open-source MLLMs along with GPT4-V,
Gemini-Pro, and Qwen-VL-Plus. The results demonstrate that CMMU poses a
significant challenge to the recent MLLMs.
- Abstract(参考訳): マルチモーダルな大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力な知識理解と推論能力を示した。
しかしながら、mllmの知性を評価する上で不可欠なドメイン固有知識の習得は依然として課題である。
ドメイン固有の知識に対する現在のマルチモーダルベンチマークは、複数の選択の問題に集中しており、主に英語で利用可能であり、評価の包括性に制限を課している。
この目的のために、中国語における多モーダルおよび多型質問理解と推論のための新しいベンチマークであるCMMUを紹介する。
CMMUは7科目で3,603質問で構成され、小学校から高校までの知識をカバーしている。
質問は、マルチチョイス、マルチレスポンス、フィル・イン・ザ・ブランクの3つのタイプに分類でき、mllmにより大きな課題をもたらす。
さらに,複数質問に対する評価を行うShiftCheckという厳密な評価戦略を提案する。
この戦略は位置バイアスを低減し、ランダム性の影響を最小限に抑え、位置バイアスを定量的に分析することを目的としている。
GPT4-V, Gemini-Pro, Qwen-VL-Plusの7つのオープンソースMLLMを評価した。
その結果,近年のMLLMではCMMUが大きな課題となっていることがわかった。
関連論文リスト
- A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective [9.633811630889237]
本稿では,視覚質問応答(VQA)問題におけるバイアスを解釈するための因果的枠組みを提案する。
マルチホップ推論を必要とする12,000の挑戦VQAインスタンスを備えた新しいデータセットを導入する。
実験の結果, MLLMはMOREに悪影響を及ぼし, 強い一方向偏差と限定的な意味理解を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-27T08:38:49Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [53.24896036161829]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - AGIBench: A Multi-granularity, Multimodal, Human-referenced,
Auto-scoring Benchmark for Large Language Models [3.518832148294879]
ChatGPTのような大規模言語モデルの問題解決能力を評価する方法はホットスポットだが難しい問題だ。
本稿では,LLMのマルチグラニュラ性,マルチモーダル,ヒューマン参照,オートスコーリングのベンチマーク手法であるAGIBenchを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:43:37Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。