論文の概要: What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks
- arxiv url: http://arxiv.org/abs/2504.07825v1
- Date: Thu, 10 Apr 2025 15:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:31.165524
- Title: What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks
- Title(参考訳): HellaSwagとは何か?Common-Sense Reasoningベンチマークの妥当性について
- Authors: Pavel Chizhov, Mattia Nee, Pierre-Carl Langlais, Ivan P. Yamshchikov,
- Abstract要約: HellaSwagは,評価に最も広く用いられているベンチマークの一つである。
このベンチマークは, 常識的推論を正確に測定するものではないため, 現状の評価には使用すべきではない。
- 参考スコア(独自算出の注目度): 8.012203293561196
- License:
- Abstract: Common-sense reasoning is a key language model capability because it encapsulates not just specific factual knowledge but rather general language and world understanding. Measuring common-sense reasoning, therefore, is crucial for language models of different sizes and applications. One of the most widely used benchmarks for evaluating such capabilities is HellaSwag; however, in this paper, we show that it has severe construct validity issues. These issues range from basic ungrammaticality and numerous typos to misleading prompts or equally correct options. Furthermore, we show that if models are evaluated only on answer texts, or with "Lorem ipsum dolor..." instead of the question, more than 65% of model predictions remain the same, and this cannot be attributed merely to contamination. Since benchmark scores are an essential part of model selection in both research and commercial applications, these validity issues can have severe consequences. In particular, knowing that taking benchmark scores at face value is ubiquitous, inadequate evaluation leads to ill-informed decisions about models. In this paper, we thoroughly investigate critical validity issues posed by HellaSwag and illustrate them with various evaluations using generative language models of different sizes. We argue that this benchmark does not accurately measure common-sense reasoning and, therefore, should not be used for evaluation in its current state. Based on the results of our study, we propose requirements that should be met by future common-sense reasoning benchmarks. In addition, we release GoldenSwag, a corrected subset of HellaSwag, which, to our belief, facilitates acceptable common-sense reasoning evaluation.
- Abstract(参考訳): 常識推論は、特定の事実知識だけでなく、一般的な言語や世界理解をカプセル化するので、重要な言語モデル機能である。
したがって、異なるサイズとアプリケーションの言語モデルにとって、常識的推論を測定することが不可欠である。
このような機能を評価するために最も広く使われているベンチマークの一つに、HellaSwagがあるが、本稿では、構造的妥当性に深刻な問題があることを示す。
これらの問題は、基本的な非文法性や多くのタイプミスから誤解を招くプロンプト、等しく正しいオプションまで様々である。
さらに,モデルが回答文のみに基づいて評価されている場合,あるいは質問の代わりに「Lorem ipsum dolor...」で評価されている場合,モデル予測の65%以上がそのままであり,これは単に汚染によるものではないことを示す。
ベンチマークスコアは、研究および商用アプリケーションの両方においてモデル選択の不可欠な部分であるため、これらの妥当性問題は深刻な結果をもたらす可能性がある。
特に、ベンチマークのスコアを顔の値で取ることがユビキタスであることを知ると、不適切な評価は、モデルに関するインフォームドな判断につながる。
本稿では,HellaSwagによる批判的妥当性を徹底的に検討し,異なるサイズの生成言語モデルを用いて様々な評価を行った。
このベンチマークは, 常識的推論を正確に測定するものではないため, 現状の評価には使用すべきではない。
本研究の結果に基づき,今後の常識推論ベンチマークで満たすべき要件を提案する。
さらに我々は,HellaSwagの修正されたサブセットであるGoldenSwagをリリースする。
関連論文リスト
- Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - A Critical Review of Causal Reasoning Benchmarks for Large Language Models [2.1311710788645617]
因果関係に関するLLMベンチマークの概要を概観する。
有用なベンチマークやベンチマークのセットが満たすべき基準のセットを導出します。
論文 参考訳(メタデータ) (2024-07-10T20:11:51Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation [0.0]
本稿では,適切な回答を開示することなく,オープンな言語モデルを評価するためのプロトコルであるハッシュマーキングを提案する。
最も単純な形式では、ハッシュマークは参照ソリューションが公開前に暗号的にハッシュ化されているベンチマークである。
論文 参考訳(メタデータ) (2023-12-01T15:16:00Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Dialectical language model evaluation: An initial appraisal of the
commonsense spatial reasoning abilities of LLMs [10.453404263936335]
本稿では,コモンセンス推論のための言語モデルの弁証的評価について検討する。
この種の評価の目標は、集合的なパフォーマンス値を得るのではなく、失敗を見つけ、システムのバウンダリをマップすることにある。
本稿では,空間的推論の特定の場合に対して,このような評価を定性的に検討する。
論文 参考訳(メタデータ) (2023-04-22T06:28:46Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Characteristics of Harmful Text: Towards Rigorous Benchmarking of
Language Models [32.960462266615096]
大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。
近年の文献や現実世界の観測により、これらのモデルが有害、偏見があり、非現実的、その他の有害な言語を生成できることが証明されている。
我々は、新しいベンチマークを設計する際、明らかな考慮に値する有害なテキストを特徴づける6つの方法を概説する。
論文 参考訳(メタデータ) (2022-06-16T17:28:01Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Do Fine-tuned Commonsense Language Models Really Generalize? [8.591839265985412]
厳密な科学的研究を設計・実施することで、一般化問題を詳細に研究する。
実験装置の適度な変更があっても、微調整されたコモンセンス言語モデルがまだうまく一般化していないという明確な証拠が得られます。
論文 参考訳(メタデータ) (2020-11-18T08:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。