論文の概要: None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks
- arxiv url: http://arxiv.org/abs/2502.12896v1
- Date: Tue, 18 Feb 2025 14:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:45.035063
- Title: None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks
- Title(参考訳): その他のもの:マルチコースLCM評価ベンチマークにおける記憶から推論を区別する一般的な手法
- Authors: Eva Sánchez Salido, Julio Gonzalo, Guillermo Marco,
- Abstract要約: 本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License:
- Abstract: In LLM evaluations, reasoning is often distinguished from recall/memorization by performing numerical variations to math-oriented questions. Here we introduce a general variation method for multiple-choice questions that completely dissociates the correct answer from previously seen tokens or concepts, requiring LLMs to understand and reason (rather than memorizing) in order to answer correctly. Using this method, we evaluate state-of-the-art proprietary and open-source LLMs on two datasets available in English and Spanish: the public MMLU benchmark and the private UNED-Access 2024 dataset. Results show that all models experience remarkable accuracy drops under our proposed variation, with an average loss of 57% on MMLU and 50% on UNED-Access 2024, ranging from 10% to 93% across models. Notably, the most accurate model in our experimentation (OpenAI-o3-mini) is not the most robust (DeepSeek-R1-70B), suggesting that the best models in standard evaluations may not be the ones with better reasoning capabilities. Also, we see larger accuracy drops in public (vs private) datasets and questions posed in their original language (vs a manual translation), which are signs of contamination and also point to a relevant role of recall/memorization in current LLMs' answers.
- Abstract(参考訳): LLM評価では、数学指向の質問に対する数値的なバリエーションを実行することで、推論をリコール/記憶と区別することが多い。
本稿では,従来のトークンや概念から正しい解答を完全に解答する多点質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセット(公開MMLUベンチマークとUNED-Access 2024データセット)について、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果,提案したモデルでは,MMLUでは平均57%,UNED-Access 2024では50%,モデル全体で10%から93%の精度低下がみられた。
特に、実験でもっとも正確なモデル(OpenAI-o3-mini)は、最も堅牢ではない(DeepSeek-R1-70B)。
また、公開データセット(vsプライベート)の精度低下や、元の言語(vsマニュアル翻訳)で提起された質問(vsマニュアル翻訳)も、汚染の兆候であり、現在のLLMの回答におけるリコール/記憶の役割を示唆している。
関連論文リスト
- MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - IdentifyMe: A Challenging Long-Context Mention Resolution Benchmark [22.238377215355545]
IdentifyMeは、Multiple-choice question (MCQ)形式で提示された参照解決のための新しいベンチマークである。
我々は,最先端のサブ10Bオープンモデルとクローズドモデルとの顕著な性能差を観察する。
最も高いスコア付けモデルであるGPT-4oは81.9%の精度を実現し、最先端のLCMの強力な参照能力を強調している。
論文 参考訳(メタデータ) (2024-11-12T01:05:55Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - UnibucLLM: Harnessing LLMs for Automated Prediction of Item Difficulty and Response Time for Multiple-Choice Questions [25.877058354902953]
本研究は,BEA 2024共有タスクにおけるUSMLE多項目質問(MCQ)の項目難易度と応答時間を予測するために,LLM(Large Language Models)に基づく新しいデータ拡張手法を提案する。
我々のアプローチは、ゼロショットLLMからの回答をデータセットに拡張し、6つの代替機能の組み合わせに基づいてトランスフォーマーベースのモデルを採用することに基づいている。
論文 参考訳(メタデータ) (2024-04-20T10:41:02Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。