論文の概要: The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks
- arxiv url: http://arxiv.org/abs/2509.25671v1
- Date: Tue, 30 Sep 2025 02:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.392783
- Title: The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks
- Title(参考訳): 平均値の欠陥:ベンチマークにおけるパフォーマンスの一様性の定量化
- Authors: Arda Uzunoglu, Tianjian Li, Daniel Khashabi,
- Abstract要約: 本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
- 参考スコア(独自算出の注目度): 32.00464870277127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks shape scientific conclusions about model capabilities and steer model development. This creates a feedback loop: stronger benchmarks drive better models, and better models demand more discriminative benchmarks. Ensuring benchmark reliability is therefore essential for trustworthy evaluation and meaningful progress. In this work, we study benchmark reliability from a distributional perspective and introduce benchmark harmony, which measures how uniformly a model's performance is distributed across the subdomains of a benchmark. We posit that high harmony is a desirable benchmark property, indicating that the aggregate metric reflects uniform competence across subdomains. Across 19 multiple-choice benchmarks and five model families, we map each benchmark onto a mean-variance plane of harmony computed across models, where high mean and low variance signal more reliable evaluation. Our analysis shows that less harmonious benchmarks can give misleading results, since overall accuracy may be disproportionately influenced by specific subdomains. For instance, ARC-Easy is overwhelmed by questions on Biological Concepts, overshadowing other critical subdomains such as Geography, Physics, Chemistry, and Environmental Science. By recommending that harmony should be reported alongside accuracy, we reframe evaluation from simple performance averages to a more robust, distributionally reliable measurement of performance.
- Abstract(参考訳): ベンチマークはモデル能力とステアモデル開発に関する科学的結論を形成する。
より強力なベンチマークはより良いモデルを駆動し、より良いモデルはより差別的なベンチマークを要求する。
したがって、信頼に値する評価と有意義な進歩のためには、ベンチマークの信頼性を確保することが不可欠である。
本研究では,ベンチマークの信頼性を分布の観点から検討し,ベンチマークのサブドメイン間でモデルの性能が均一に分散されているかを測定するベンチマーク調和を導入する。
我々は、高調和が望ましいベンチマーク特性であると仮定し、集約計量がサブドメイン間の均一なコンピテンスを反映していることを示す。
19の多重選択ベンチマークと5つのモデルファミリーで、各ベンチマークをモデル間で計算された平均分散平面にマッピングし、平均および低分散信号をより信頼性の高い評価を行う。
我々の分析によると、特定のサブドメインによって、全体的な精度が不均等に影響される可能性があるため、調和の少ないベンチマークは誤った結果をもたらす可能性がある。
例えば、ARC-Easyは生物概念に関する疑問に圧倒され、地理学、物理学、化学、環境科学といった他の重要なサブドメインを圧倒している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
関連論文リスト
- The Lie of the Average: How Class Incremental Learning Evaluation Deceives You? [48.83567710215299]
クラスインクリメンタルラーニング(CIL)では、モデルが学習済みのクラスを忘れずに、新しいクラスを継続的に学習する必要がある。
我々は、ロバストなCIL評価プロトコルは、性能分布全体を正確に特徴付け、推定するべきであると論じる。
我々は,タスク間類似度を用いて,極端なクラスシーケンスを適応的に識別し,サンプリングする評価プロトコルEDGEを提案する。
論文 参考訳(メタデータ) (2025-09-26T17:00:15Z) - Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation [103.66549325018741]
現在のベンチマークの違いを示す2つの重要な指標を紹介します。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
論文 参考訳(メタデータ) (2025-08-18T17:56:04Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory [44.886213907135435]
Pseudo-Siamese Network for Item Response Theory (PSN-IRT) を提案する。
PSN-IRTは、アイテムの特性とモデル能力の正確かつ信頼性の高い推定に利用することができる。
論文 参考訳(メタデータ) (2025-05-21T03:24:11Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。