論文の概要: Benchmark Health Index: A Systematic Framework for Benchmarking the Benchmarks of LLMs
- arxiv url: http://arxiv.org/abs/2602.11674v1
- Date: Thu, 12 Feb 2026 07:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.704506
- Title: Benchmark Health Index: A Systematic Framework for Benchmarking the Benchmarks of LLMs
- Title(参考訳): Benchmark Health Index: LLMのベンチマークをベンチマークするためのシステムフレームワーク
- Authors: Longyuan Zhu, Hairan Hua, Linlin Miao, Bing Zhao,
- Abstract要約: 大きな言語モデル(LLM)は急速に進歩しているが、この進歩を測定するために使われるベンチマークはますます信頼できないものになりつつある。
ベンチマークヘルス指標(BHI)は、3つの軸に沿って評価セットを監査するための純粋なデータ駆動型フレームワークである。
BHIは、ベンチマークの健全性をマクロレベルで定量化する最初のフレームワークであり、ベンチマークの選択と動的なライフサイクル管理を可能にするための原則化された基盤を提供する。
- 参考スコア(独自算出の注目度): 0.546518222976141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are advancing rapidly, yet the benchmarks used to measure this progress are becoming increasingly unreliable. Score inflation and selective reporting have eroded the authority of standard benchmarks, leaving the community uncertain about which evaluation results remain trustworthy. We introduce the Benchmark Health Index (BHI), a pure data-driven framework for auditing evaluation sets along three orthogonal and complementary axes: (1) Capability Discrimination, measuring how sharply a benchmark separates model performance beyond noise; (2) Anti-Saturation, estimating remaining headroom before ceiling effects erode resolution and thus the benchmark's expected longevity; and (3) Impact, quantifying influence across academic and industrial ecosystems via adoption breadth and practice-shaping power. By distilling 106 validated benchmarks from the technical reports of 91 representative models in 2025, we systematically characterize the evaluation landscape. BHI is the first framework to quantify benchmark health at a macro level, providing a principled basis for benchmark selection and enabling dynamic lifecycle management for next-generation evaluation protocols.
- Abstract(参考訳): 大きな言語モデル(LLM)は急速に進歩しているが、この進歩を測定するために使われるベンチマークはますます信頼できないものになりつつある。
インフレ率と選択報告は標準ベンチマークの権威を損なっており、どの評価結果が信頼できるかコミュニティは不透明だ。
評価セットを直交軸と相補軸に沿って監査するための純粋なデータ駆動型フレームワークであるBenchmark Health Index (BHI)を導入し,(1) 性能判別,ベンチマークによるノイズ以外のモデル性能の分離の程度の測定,(2) 天井効果前の残部を推定するアンチ飽和化, エルドレゾリューション, そして, ベンチマークの長寿命化, (3) 採用広さ, 実践整形力による学術的, 産業的エコシステムへの影響の定量化, について紹介する。
2025年、91代表モデルの技術的報告から106個の検証済みベンチマークを蒸留することにより、評価景観を体系的に特徴づける。
BHIは、ベンチマークの健全性をマクロレベルで定量化する最初のフレームワークであり、ベンチマーク選択の基本的な基盤を提供し、次世代評価プロトコルの動的ライフサイクル管理を可能にする。
関連論文リスト
- Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - How NOT to benchmark your SITE metric: Beyond Static Leaderboards and Towards Realistic Evaluation [11.33816414982401]
伝達可能性推定メトリクスは、与えられた目標タスクに対して高い性能の事前訓練されたモデルを見つけるために使用される。
このようなメトリクスの開発に対する関心が高まっているにもかかわらず、彼らの進捗を測るベンチマークは、ほとんど検討されていない。
これらの指標が評価されるベンチマークには、根本的な欠陥がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-10-07T20:38:12Z) - The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - Deprecating Benchmarks: Criteria and Framework [2.6449913368815516]
ベンチマークを完全にあるいは部分的に非推奨にする時期を決定するための基準と、ベンチマークを非推奨にするフレームワークを提案する。
我々の研究は、特にフロンティアモデルにおいて、厳格で高品質な評価に向けたベンチマークの状況を改善することを目的としている。
論文 参考訳(メタデータ) (2025-07-08T22:29:06Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Mapping global dynamics of benchmark creation and saturation in
artificial intelligence [5.233652342195164]
ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
論文 参考訳(メタデータ) (2022-03-09T09:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。