論文の概要: MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
- arxiv url: http://arxiv.org/abs/2407.00468v1
- Date: Sat, 29 Jun 2024 15:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:06:00.769169
- Title: MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation
- Title(参考訳): MMEvalPro: 信頼性と効率的な評価に向けたマルチモーダルベンチマークの校正
- Authors: Jinsheng Huang, Liang Chen, Taian Guo, Fu Zeng, Yusheng Zhao, Bohan Wu, Ye Yuan, Haozhe Zhao, Zhihui Guo, Yichi Zhang, Jingyang Yuan, Wei Ju, Luchen Liu, Tianyu Liu, Baobao Chang, Ming Zhang,
- Abstract要約: MMEvalProは、トリロジー評価パイプラインとより厳格なメトリクスを通じて、Type-Iエラーを避けるために設計されたベンチマークである。
MMEvalProには2,138ドルの質問用三つ子があり、合計6,414ドルの質問がある。
既存のベンチマークと比較すると、最新のLLMとLMMによる実験では、MMEvalProの方が難しいことが示されています。
- 参考スコア(独自算出の注目度): 38.076276626337766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) exhibit impressive cross-modal understanding and reasoning abilities, often assessed through multiple-choice questions (MCQs) that include an image, a question, and several options. However, many benchmarks used for such evaluations suffer from systematic biases. Remarkably, Large Language Models (LLMs) without any visual perception capabilities achieve non-trivial performance, undermining the credibility of these evaluations. To address this issue while maintaining the efficiency of MCQ evaluations, we propose MMEvalPro, a benchmark designed to avoid Type-I errors through a trilogy evaluation pipeline and more rigorous metrics. For each original question from existing benchmarks, human annotators augment it by creating one perception question and one knowledge anchor question through a meticulous annotation process. MMEvalPro comprises $2,138$ question triplets, totaling $6,414$ distinct questions. Two-thirds of these questions are manually labeled by human experts, while the rest are sourced from existing benchmarks (MMMU, ScienceQA, and MathVista). Compared with the existing benchmarks, our experiments with the latest LLMs and LMMs demonstrate that MMEvalPro is more challenging (the best LMM lags behind human performance by $31.73\%$, compared to an average gap of $8.03\%$ in previous benchmarks) and more trustworthy (the best LLM trails the best LMM by $23.09\%$, whereas the gap for previous benchmarks is just $14.64\%$). Our in-depth analysis explains the reason for the large performance gap and justifies the trustworthiness of evaluation, underscoring its significant potential for advancing future research.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、画像、質問、およびいくつかの選択肢を含む多重選択質問(MCQ)を通してしばしば評価される、印象的なクロスモーダル理解と推論能力を示す。
しかし、このような評価に使用されるベンチマークの多くは、体系的なバイアスに悩まされている。
注目すべきは、視覚的知覚能力のない大規模言語モデル(LLM)は、非自明なパフォーマンスを実現し、これらの評価の信頼性を損なうことである。
MCQ評価の効率を保ちながらこの問題に対処するため,三部評価パイプラインおよびより厳密な指標を用いてType-Iエラーを回避するために設計されたベンチマークであるMMEvalProを提案する。
既存のベンチマークからの最初の質問に対して、人間のアノテータは、微妙なアノテーションプロセスを通じて、一つの知覚的質問と1つの知識をアンカーする質問を作成することで、それを増強する。
MMEvalProには2,138ドルの質問用三つ子があり、合計6,414ドルの質問がある。
これらの質問の3分の2は、人間の専門家によって手動でラベル付けされ、残りは既存のベンチマーク(MMMU、ScienceQA、MathVista)から作成されている。
既存のベンチマークと比較すると、最新のLLMとLMMによる我々の実験では、MMEvalProはより難しい(従来のベンチマークでは平均で8.03ドル%)、信頼性が高い(最高のLLMは23.09ドル%、以前のベンチマークでは14.64ドル%)。
我々の詳細な分析では、大きなパフォーマンスギャップの理由を説明し、評価の信頼性を正当化し、今後の研究を前進させる大きな可能性を強調しています。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。