論文の概要: MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark (Published at NeurIPS 2024 Track Datasets and Benchmarks)
- arxiv url: http://arxiv.org/abs/2406.01574v5
- Date: Mon, 07 Oct 2024 17:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:39:48.856728
- Title: MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark (Published at NeurIPS 2024 Track Datasets and Benchmarks)
- Title(参考訳): MMLU-Pro: よりロバストで、マルチタスク言語理解ベンチマーク(NeurIPS 2024トラックデータセットとベンチマーク)
- Authors: Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen,
- Abstract要約: 本稿では、主に知識駆動型MMLUベンチマークを拡張するために設計された拡張データセットであるMMLU-Proを紹介する。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
- 参考スコア(独自算出の注目度): 44.840266648465054
- License:
- Abstract: In the age of large-scale language models, benchmarks like the Massive Multitask Language Understanding (MMLU) have been pivotal in pushing the boundaries of what AI can achieve in language comprehension and reasoning across diverse domains. However, as models continue to improve, their performance on these benchmarks has begun to plateau, making it increasingly difficult to discern differences in model capabilities. This paper introduces MMLU-Pro, an enhanced dataset designed to extend the mostly knowledge-driven MMLU benchmark by integrating more challenging, reasoning-focused questions and expanding the choice set from four to ten options. Additionally, MMLU-Pro eliminates the trivial and noisy questions in MMLU. Our experimental results show that MMLU-Pro not only raises the challenge, causing a significant drop in accuracy by 16% to 33% compared to MMLU but also demonstrates greater stability under varying prompts. With 24 different prompt styles tested, the sensitivity of model scores to prompt variations decreased from 4-5% in MMLU to just 2% in MMLU-Pro. Additionally, we found that models utilizing Chain of Thought (CoT) reasoning achieved better performance on MMLU-Pro compared to direct answering, which is in stark contrast to the findings on the original MMLU, indicating that MMLU-Pro includes more complex reasoning questions. Our assessments confirm that MMLU-Pro is a more discriminative benchmark to better track progress in the field.
- Abstract(参考訳): 大規模言語モデルの時代において、Multistive Multitask Language Understanding (MMLU)のようなベンチマークは、さまざまなドメインにわたる言語理解と推論においてAIが達成できることの境界を推し進めるために重要な役割を果たしてきた。
しかし、モデルの改善が進むにつれて、これらのベンチマークのパフォーマンスが低下し始めており、モデル機能の違いを識別することがますます困難になっている。
本稿では,知識駆動型MMLUベンチマークの拡張を目的としたMMLU-Proを提案する。
さらに、MMLU-ProはMMLUの自明でノイズの多い問題を取り除く。
実験の結果,MMLU-Proは課題を提起するだけでなく,MMLUに比べて16%から33%の精度低下を招いた。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
さらに, MMLU-Proを用いたモデルでは, MMLU-Proを用いた場合と比較して, MMLU-Proを用いた場合よりも, MMLU-Proを用いた場合の方が優れていることがわかった。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
関連論文リスト
- MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs [88.28014831467503]
本稿では,包括的なベンチマークであるMMDUと,大規模命令チューニングデータセットであるMMDU-45kを紹介する。
MMDUは最大18k画像+テキストトークン、20イメージ、27ターンを備えており、これは以前のベンチマークの少なくとも5倍長くなる。
MMDU-45k上のフネ調整型オープンソースLVLMは、このギャップに適応し、より長く正確な会話を生成することを実証する。
論文 参考訳(メタデータ) (2024-06-17T17:59:47Z) - Are We Done with MMLU? [18.740187299563473]
我々は、人気のあるMassive Multitask Language Understandingベンチマークでエラーを特定し、分析する。
例えば、Virologyサブセットで分析された質問の57%にエラーが含まれていることがわかった。
MMLU-Reduxは,30名のMMLU被験者を対象に,手動で書き直した3000の質問のサブセットである。
論文 参考訳(メタデータ) (2024-06-06T14:49:06Z) - MM-PhyQA: Multimodal Physics Question-Answering With Multi-Image CoT Prompting [0.6675160100853794]
我々は,高度に構成された高次マルチモーダル物理問題を含む新しいデータセットMM-PhyQAをキュレートした。
GPT-4を用いたゼロショット予測とLLaVA(LLaVAとLLaVA-1.5)を用いて,マルチモーダル入力からなる質問に対する回答を生成する。
テキスト入力のみからなるLLMの性能を評価するため,Mistral-7BおよびLLaMA2-7bモデルのベースおよび微調整版の性能試験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:11:47Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - An Improved Traditional Chinese Evaluation Suite for Foundation Model [15.669799471464676]
従来の中国語理解のための新しいベンチマークTMMLU+を提案する。
小学校から専門職まで66名の被験者を対象とする多票質問回答データセットである。
我々はまた、1.8Bから72Bまでのパラメータのクローズドソースモデルと26のオープンウェイト中国語大言語モデル(LLM)をベンチマークした。
論文 参考訳(メタデータ) (2024-03-04T09:13:33Z) - MM-LLMs: Recent Advances in MultiModal Large Language Models [49.06046606933233]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。
126のMM-LLMを包含する分類法を導入し,その特異な定式化を特徴とする。
本稿では,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
論文 参考訳(メタデータ) (2024-01-24T17:10:45Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - A Result based Portable Framework for Spoken Language Understanding [15.99246711701726]
RPFSLU (Result-based Portable Framework for Spoken Language understanding) を提案する。
RPFSLUは、ほとんどの既存のシングルターンSLUモデルがマルチターン対話からコンテキスト情報を取得し、現在の予測中の対話履歴における予測結果を最大限に活用します。
公開データセットKVRETの実験結果は、ベースライン内のすべてのSLUモデルがマルチターンSLUタスクでRPFSLUによって強化されることを示した。
論文 参考訳(メタデータ) (2021-03-10T12:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。