論文の概要: MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs
- arxiv url: http://arxiv.org/abs/2409.02257v1
- Date: Tue, 3 Sep 2024 19:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 21:27:46.220589
- Title: MMLU-Pro+: Evaluating Higher-Order Reasoning and Shortcut Learning in LLMs
- Title(参考訳): MMLU-Pro+:LLMにおける高次推論とショートカット学習の評価
- Authors: Saeid Asgari Taghanaki, Aliasgahr Khani, Amir Khasahmadi,
- Abstract要約: 大規模言語モデル(LLM)の既存のベンチマークは、パフォーマンスの高いモデル間の差別化にますます苦労している。
本稿では,MMLU-Proをベースとした,ショートカット学習と高次推論のための拡張ベンチマークであるMMLU-Pro+を紹介する。
以上の結果から,MMLU-Pro+はMMLU-Proの難易度を維持しつつ,より厳密なモデル判別試験を行っていることがわかった。
- 参考スコア(独自算出の注目度): 2.3603377248944017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for large language models (LLMs) increasingly struggle to differentiate between top-performing models, underscoring the need for more challenging evaluation frameworks. We introduce MMLU-Pro+, an enhanced benchmark building upon MMLU-Pro to assess shortcut learning and higher-order reasoning in LLMs. By incorporating questions with multiple correct answers across diverse domains, MMLU-Pro+ tests LLMs' ability to engage in complex reasoning and resist simplistic problem-solving strategies. Our results show that MMLU-Pro+ maintains MMLU-Pro's difficulty while providing a more rigorous test of model discrimination, particularly in multi-correct answer scenarios. We introduce novel metrics like shortcut selection ratio and correct pair identification ratio, offering deeper insights into model behavior and anchoring bias. Evaluations of five state-of-the-art LLMs reveal significant performance gaps, highlighting variations in reasoning abilities and bias susceptibility. We release the dataset and evaluation codes at \url{https://github.com/asgsaeid/mmlu-pro-plus}.
- Abstract(参考訳): 大規模言語モデル(LLM)の既存のベンチマークは、パフォーマンスの高いモデル間の差別化にますます苦労しており、より困難な評価フレームワークの必要性を強調している。
LLMにおけるショートカット学習と高次推論を評価するために,MMLU-Proをベースとした拡張ベンチマークであるMMLU-Pro+を導入する。
MMLU-Pro+は、様々な領域にまたがる複数の正解の質問を組み込むことで、複雑な推論にLLMの能力をテストし、単純化された問題解決戦略に抵抗する。
以上の結果から,MMLU-Pro+はMMLU-Proの難易度を維持しつつ,モデル判別の厳密な検証を行ない,特に複数の正解シナリオにおいて行うことが示唆された。
ショートカット選択比や正しいペア識別比といった新しい指標を導入し、モデルの振る舞いとバイアスのアンカーについてより深い洞察を提供する。
最先端の5つのLCMの評価は、推論能力とバイアス感受性のばらつきを顕著に示し、大きなパフォーマンスギャップを浮き彫りにした。
データセットと評価コードは \url{https://github.com/asgsaeid/mmlu-pro-plus} で公開しています。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark [44.840266648465054]
本稿では、主に知識駆動型MMLUベンチマークを拡張するために設計された拡張データセットであるMMLU-Proを紹介する。
24種類のプロンプトを試験した結果,MMLUの4-5%からMMLU-Proの2%に低下した。
MMLU-Proは、この分野の進歩をよりよく追跡するための、より差別的なベンチマークであることを確認した。
論文 参考訳(メタデータ) (2024-06-03T17:53:00Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。