論文の概要: Are We Done with MMLU?
- arxiv url: http://arxiv.org/abs/2406.04127v1
- Date: Thu, 6 Jun 2024 14:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:30:04.836884
- Title: Are We Done with MMLU?
- Title(参考訳): MMLUでやれるか?
- Authors: Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini,
- Abstract要約: 我々は、人気のあるMassive Multitask Language Understandingベンチマークでエラーを特定し、分析する。
例えば、Virologyサブセットで分析された質問の57%にエラーが含まれていることがわかった。
MMLU-Reduxは,30名のMMLU被験者を対象に,手動で書き直した3000の質問のサブセットである。
- 参考スコア(独自算出の注目度): 18.740187299563473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maybe not. We identify and analyse errors in the popular Massive Multitask Language Understanding (MMLU) benchmark. Even though MMLU is widely adopted, our analysis demonstrates numerous ground truth errors that obscure the true capabilities of LLMs. For example, we find that 57% of the analysed questions in the Virology subset contain errors. To address this issue, we introduce a comprehensive framework for identifying dataset errors using a novel error taxonomy. Then, we create MMLU-Redux, which is a subset of 3,000 manually re-annotated questions across 30 MMLU subjects. Using MMLU-Redux, we demonstrate significant discrepancies with the model performance metrics that were originally reported. Our results strongly advocate for revising MMLU's error-ridden questions to enhance its future utility and reliability as a benchmark. Therefore, we open up MMLU-Redux for additional annotation https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
- Abstract(参考訳): たぶん違う。
我々は,MMLU(Massive Multitask Language Understanding)ベンチマークにおいて,誤りを特定し解析する。
MMLUは広く採用されているが,本研究では,LLMの真の性能を隠蔽する基礎的真理誤差を多数示している。
例えば、Virologyサブセットで分析された質問の57%にエラーが含まれていることがわかった。
この問題に対処するために、新しいエラー分類法を用いてデータセットエラーを識別する包括的なフレームワークを導入する。
MMLU-Reduxは,30名のMMLU被験者を対象に,手動で書き直した3000の質問のサブセットである。
MMLU-Reduxを用いて、当初報告されたモデル性能指標と大きな相違点を示す。
本結果は,MMLUの今後の実用性と信頼性をベンチマークとして向上する上で,誤りを犯した質問の修正を強く主張するものである。
したがって、追加アノテーション https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux に対して MMLU-Redux を開きます。
関連論文リスト
- Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
メタ推論スキルを必要とするプロセスベースのベンチマークを提案する。
MR-BENは、人間の専門家から収集された5,975の質問からなる総合的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark [44.840266648465054]
本稿では、主に知識駆動型MMLUベンチマークを拡張するために設計された拡張データセットであるMMLU-Proを紹介する。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
論文 参考訳(メタデータ) (2024-06-03T17:53:00Z) - The Fact Selection Problem in LLM-Based Program Repair [3.7005619077967133]
コードコンテキストのような単純な構文的な詳細から、以前はPythonプロジェクトのコンテキストで探索されていなかった意味情報まで、それぞれの事実が有益であることを示す。
重要なことは、プログラム修復プロンプトの有効性は、使用済み事実の数よりも非単調であることが判明した。
我々は、特定のバグに固有の事実を抽出し、プロンプトに含める基本統計モデルManipleを開発した。
論文 参考訳(メタデータ) (2024-04-08T13:41:32Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。