Fugu-MT 論文翻訳(概要): MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark (Published at NeurIPS 2024 Track Datasets and Benchmarks)

論文の概要: MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark (Published at NeurIPS 2024 Track Datasets and Benchmarks)

arxiv url: http://arxiv.org/abs/2406.01574v5
Date: Mon, 07 Oct 2024 17:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:49:11.747736
Title: MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark (Published at NeurIPS 2024 Track Datasets and Benchmarks)
Title（参考訳）: MMLU-Pro: よりロバストで、マルチタスク言語理解ベンチマーク(NeurIPS 2024トラックデータセットとベンチマーク)
Authors: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen,
Abstract要約: 本稿では、主に知識駆動型MMLUベンチマークを拡張するために設計された拡張データセットであるMMLU-Proを紹介する。 24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。 MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
参考スコア（独自算出の注目度）: 44.840266648465054
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
Abstract（参考訳）: 大規模言語モデルの時代において、Multistive Multitask Language Understanding (MMLU)のようなベンチマークは、さまざまなドメインにわたる言語理解と推論においてAIが達成できることの境界を推し進めるために重要な役割を果たしてきた。しかし、モデルの改善が進むにつれて、これらのベンチマークのパフォーマンスが低下し始めており、モデル機能の違いを識別することがますます困難になっている。本稿では,知識駆動型MMLUベンチマークの拡張を目的としたMMLU-Proを提案する。さらに、MMLU-ProはMMLUの自明でノイズの多い問題を取り除く。実験の結果,MMLU-Proは課題を提起するだけでなく,MMLUに比べて16%から33%の精度低下を招いた。 24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。さらに, MMLU-Proを用いたモデルでは, MMLU-Proを用いた場合と比較して, MMLU-Proを用いた場合よりも, MMLU-Proを用いた場合の方が優れていることがわかった。 MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。

関連論文リスト

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models [95.34001906930152]
大規模言語モデル(LLM)は、タスク固有のエンジニアリング作業を緩和することによって、オンラインショッピングを変革する可能性がある。実世界のAmazonデータから得られた多様なマルチタスクオンラインショッピングベンチマークであるShopping MMLUを提案する。ショッピングMMLUは、概念理解、知識推論、ユーザの行動アライメント、多言語性という4つの主要なショッピングスキルをカバーする57のタスクで構成されている。
論文参考訳（メタデータ） (2024-10-28T05:25:47Z)
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。 MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文参考訳（メタデータ） (2024-09-04T15:31:26Z)
MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs [2.3603377248944017]
大規模言語モデル(LLM)の既存のベンチマークは、パフォーマンスの高いモデル間の差別化にますます苦労している。本稿では,MMLU-Proをベースとした,ショートカット学習と高次推論のための拡張ベンチマークであるMMLU-Pro+を紹介する。以上の結果から,MMLU-Pro+はMMLU-Proの難易度を維持しつつ,より厳密なモデル判別試験を行っていることがわかった。
論文参考訳（メタデータ） (2024-09-03T19:31:03Z)
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。 MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。 MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文参考訳（メタデータ） (2024-06-17T17:59:47Z)
MMLU-SR: A Benchmark for Stress-Testing Reasoning Capability of Large Language Models [8.7734602595507]
大規模言語モデル(LLM)の真の理解能力を測定するための新しいデータセットMMLU-SRを提案する。我々は、キーワードをダミー語に置き換え、その定義に従って標準化されたテスト質問を修正した。このような置換後のモデル性能は大幅に低下し,理解力の低下が示唆された。
論文参考訳（メタデータ） (2024-06-15T05:35:47Z)
Are We Done with MMLU? [18.740187299563473]
我々は、人気のあるMassive Multitask Language Understandingベンチマークでエラーを特定し、分析する。例えば、Virologyサブセットで分析された質問の57%にエラーが含まれていることがわかった。 MMLU-Reduxは,30名のMMLU被験者を対象に,手動で書き直した3000の質問のサブセットである。
論文参考訳（メタデータ） (2024-06-06T14:49:06Z)
Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models [84.78457918843165]
Unsolvable Problem Detection (UPD) は,大規模マルチモーダルモデル(LMM)の頑健な理解能力を評価するための新しいタスクである。 UPDは、多票質問応答の解決不可能な問題に遭遇する際のLMMの回答を抑える能力を評価する。実験の結果,既存のベンチマークで十分な性能を示すほとんどのLMMでも,MM-UPDとはかなり苦労していることがわかった。
論文参考訳（メタデータ） (2024-03-29T17:59:53Z)
An Improved Traditional Chinese Evaluation Suite for Foundation Model [15.669799471464676]
従来の中国語理解のための新しいベンチマークTMMLU+を提案する。小学校から専門職まで66名の被験者を対象とする多票質問回答データセットである。我々はまた、1.8Bから72Bまでのパラメータのクローズドソースモデルと26のオープンウェイト中国語大言語モデル(LLM)をベンチマークした。
論文参考訳（メタデータ） (2024-03-04T09:13:33Z)
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。被験者は30名、サブフィールドは183名、画像タイプは30名である。 14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文参考訳（メタデータ） (2023-11-27T17:33:21Z)
An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。 LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文参考訳（メタデータ） (2023-09-18T17:30:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。