論文の概要: Pitfalls of Evaluating Language Models with Open Benchmarks
- arxiv url: http://arxiv.org/abs/2507.00460v1
- Date: Tue, 01 Jul 2025 06:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.362623
- Title: Pitfalls of Evaluating Language Models with Open Benchmarks
- Title(参考訳): オープンベンチマークによる言語モデル評価の落とし穴
- Authors: Md. Najib Hasan, Mohammad Fakhruddin Babar, Souvika Sarkar, Monowar Hasan, Santu Karmaker,
- Abstract要約: 本研究では,公的なテストセット上での不正行為のモデルを体系的に構築することで,これらの弱点を明らかにする。
オープンベンチマークにおける高いリーダボードのパフォーマンスは、必ずしも実際の効果を反映するとは限らない。
現在のベンチマークプラクティスの基本的な再評価は、堅牢で信頼性の高いLMアセスメントを保証するために不可欠である。
- 参考スコア(独自算出の注目度): 5.387340038770958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open Large Language Model (LLM) benchmarks, such as HELM and BIG-bench, offer standardized, transparent protocols that facilitate the fair comparison, reproducibility, and iterative advancement of Language Models (LMs). However, their openness also introduces critical and underexplored pitfalls. This study exposes these weaknesses by systematically constructing ``cheating'' models -- smaller variants of BART, T5, and GPT-2 fine-tuned directly on public test sets -- which achieve top rankings on a prominent open, holistic benchmark (HELM) despite poor generalization and limited practical utility. Our findings underscore three key insights: \ca high leaderboard performance on open benchmarks may not always reflect real-world effectiveness; \cb private or dynamic benchmarks must complement open evaluations to safeguard integrity; and \cc a fundamental reevaluation of current benchmarking practices is essential to ensure robust and trustworthy LM assessments.
- Abstract(参考訳): HELMやBIG-benchといったLLM(Open Large Language Model)ベンチマークは、公正な比較、再現性、言語モデル(LM)の反復的な進歩を促進する、標準化された透明なプロトコルを提供する。
しかし、その開放性は、批判的で未発見の落とし穴も引き起こす。
本研究は,BART,T5,GPT-2のより小さな変種を公開テストセットに直接微調整し,一般化の貧弱さと限られた実用性にもかかわらず,目立ったオープンな全体的ベンチマーク(HELM)で上位にランク付けすることで,これらの弱点を明らかにする。
オープンベンチマークにおける高いリーダボードのパフォーマンスは、必ずしも実際の効果を反映するとは限らない; プライベートベンチマークまたは動的ベンチマークは、完全性を守るためにオープン評価を補完しなければならない; 現在のベンチマークプラクティスの基本的な再評価は、堅牢で信頼性の高いLMアセスメントを保証するために不可欠である。
関連論文リスト
- FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models [7.221774553388335]
バイアスを誘発するために構築されたプロンプトに露出しても、大きな言語モデルが公平性を維持することができるかどうかをテストするための新しいベンチマークを導入する。
我々は、潜在的なバイアスを公平性評価に増幅するプロンプトを統合する。
これは安全性と公正性を保証するために、より厳格な評価ベンチマークの必要性を強調している。
論文 参考訳(メタデータ) (2025-03-25T10:48:33Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - BenchmarkCards: Standardized Documentation for Large Language Model Benchmarks [23.263430784766026]
大規模言語モデル(LLM)は多様なタスクを処理できる強力なツールである。
利用可能な多くのオプションを考えると、適切なベンチマークを見つけることは難しい。
直感的で検証可能なドキュメントフレームワークである textttBenchmarkCards を紹介します。
論文 参考訳(メタデータ) (2024-10-16T19:09:02Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。