論文の概要: MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2406.01574v6
- Date: Wed, 06 Nov 2024 02:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:58.768813
- Title: MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark
- Title(参考訳): MMLU-Pro: よりロバストで、マルチタスク言語を理解するベンチマーク
- Authors: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen,
- Abstract要約: 本稿では、主に知識駆動型MMLUベンチマークを拡張するために設計された拡張データセットであるMMLU-Proを紹介する。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
- 参考スコア(独自算出の注目度): 44.840266648465054
- License:
- Abstract: In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
- Abstract(参考訳): 大規模言語モデルの時代において、Multistive Multitask Language Understanding (MMLU)のようなベンチマークは、さまざまなドメインにわたる言語理解と推論においてAIが達成できることの境界を推し進めるために重要な役割を果たしてきた。
しかし、モデルの改善が進むにつれて、これらのベンチマークのパフォーマンスが低下し始めており、モデル機能の違いを識別することがますます困難になっている。
本稿では,知識駆動型MMLUベンチマークの拡張を目的としたMMLU-Proを提案する。
さらに、MMLU-ProはMMLUの自明でノイズの多い問題を取り除く。
実験の結果,MMLU-Proは課題を提起するだけでなく,MMLUに比べて16%から33%の精度低下を招いた。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
さらに, MMLU-Proを用いたモデルでは, MMLU-Proを用いた場合と比較して, MMLU-Proを用いた場合よりも, MMLU-Proを用いた場合の方が優れていることがわかった。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
関連論文リスト
- Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models [95.34001906930152]
大規模言語モデル(LLM)は、タスク固有のエンジニアリング作業を緩和することによって、オンラインショッピングを変革する可能性がある。
実世界のAmazonデータから得られた多様なマルチタスクオンラインショッピングベンチマークであるShopping MMLUを提案する。
ショッピングMMLUは、概念理解、知識推論、ユーザの行動アライメント、多言語性という4つの主要なショッピングスキルをカバーする57のタスクで構成されている。
論文 参考訳(メタデータ) (2024-10-28T05:25:47Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs [2.3603377248944017]
大規模言語モデル(LLM)の既存のベンチマークは、パフォーマンスの高いモデル間の差別化にますます苦労している。
本稿では,MMLU-Proをベースとした,ショートカット学習と高次推論のための拡張ベンチマークであるMMLU-Pro+を紹介する。
以上の結果から,MMLU-Pro+はMMLU-Proの難易度を維持しつつ,より厳密なモデル判別試験を行っていることがわかった。
論文 参考訳(メタデータ) (2024-09-03T19:31:03Z) - MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models [8.7734602595507]
大規模言語モデル(LLM)の真の理解能力を測定するための新しいデータセットMMLU-SRを提案する。
我々は、キーワードをダミー語に置き換え、その定義に従って標準化されたテスト質問を修正した。
このような置換後のモデル性能は大幅に低下し,理解力の低下が示唆された。
論文 参考訳(メタデータ) (2024-06-15T05:35:47Z) - Are We Done with MMLU? [18.740187299563473]
我々は、人気のあるMassive Multitask Language Understandingベンチマークでエラーを特定し、分析する。
例えば、Virologyサブセットで分析された質問の57%にエラーが含まれていることがわかった。
MMLU-Reduxは,30名のMMLU被験者を対象に,手動で書き直した3000の質問のサブセットである。
論文 参考訳(メタデータ) (2024-06-06T14:49:06Z) - An Improved Traditional Chinese Evaluation Suite for Foundation Model [15.669799471464676]
従来の中国語理解のための新しいベンチマークTMMLU+を提案する。
小学校から専門職まで66名の被験者を対象とする多票質問回答データセットである。
我々はまた、1.8Bから72Bまでのパラメータのクローズドソースモデルと26のオープンウェイト中国語大言語モデル(LLM)をベンチマークした。
論文 参考訳(メタデータ) (2024-03-04T09:13:33Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。