論文の概要: How Reliable is Language Model Micro-Benchmarking?
- arxiv url: http://arxiv.org/abs/2510.08730v1
- Date: Thu, 09 Oct 2025 18:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.498822
- Title: How Reliable is Language Model Micro-Benchmarking?
- Title(参考訳): 言語モデルのマイクロベンチマークはどの程度信頼性が高いか?
- Authors: Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta,
- Abstract要約: 本研究では,マイクロベンチマークにおいて,性能差の関数として,マイクロベンチマークが2つのモデルにどの程度の精度でランク付けできるかを検討する。
MMLU-Proでは3.5点、BIG-bench Hardでは4点の精度でモデルペアを常にランク付けすることはできない。
- 参考スコア(独自算出の注目度): 14.363495112387236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-benchmarking offers a solution to the often prohibitive time and cost of language model development: evaluate on a very small subset of existing benchmarks. Can these micro-benchmarks, however, rank models as consistently as the full benchmarks they replace? And can they rank models more consistently than selecting a random subset of data points? In many scenarios, we find that the answer is no. We introduce a meta-evaluation measure for micro-benchmarking which investigates how well a micro-benchmark can rank two models as a function of their performance difference on the full benchmark. This approach can determine which model pairs can be ranked correctly by a micro-benchmark, allowing for a finer-grained analysis of the trade-off between micro-benchmark size and reliability. Prior work has suggested selecting as few as 10 examples; we find that no micro-benchmarking method can consistently rank model pairs 3.5 points of accuracy apart on MMLU-Pro or 4 points apart on BIG-bench Hard. In order to consistently rank model pairs with relatively similar performances, we show that often as many as 250 examples must be selected, at which point random sampling is competitive with existing micro-benchmarking methods. When comparing only 8B instruction-tuned models on MMLU-Pro micro-benchmarks with 25 examples, we find that more than half of pairwise comparisons are not likely to be preserved. Our work provides actionable guidance for both micro-benchmark users and developers in navigating the trade-off between evaluation efficiency and reliability.
- Abstract(参考訳): マイクロベンチマークは、しばしば禁止される言語モデル開発の時間とコストに対する解決策を提供する。
しかし、これらのマイクロベンチマークは、彼らが置き換えた完全なベンチマークと同じくらい、一貫してランク付けできるだろうか?
そして、彼らはデータポイントのランダムなサブセットを選択するよりも、モデルを一貫してランク付けできるだろうか?
多くのシナリオでは、答えはノーであることが分かります。
本稿では,マイクロベンチマークにおける性能差の関数として,マイクロベンチマークが2つのモデルにどの程度うまくランク付けできるかを調査するメタ評価尺度を提案する。
このアプローチは、マイクロベンチマークによってどのモデルペアを正しくランク付けできるかを決定することができ、マイクロベンチマークサイズと信頼性の間のトレードオフをよりきめ細かく分析することができる。
マイクロベンチマーク法では,MMLU-Proでは3.5点,BIG-bench Hardでは4点の精度で連続的にモデルペアをランク付けできない。
比較的類似した性能を持つモデルペアを常にランク付けするためには、250個のサンプルを選択しなければならない場合が多く、その時点では、ランダムサンプリングは既存のマイクロベンチマーク手法と競合する。
MMLU-Proマイクロベンチマークの8B命令調整モデルと25の例を比較すると、ペアワイズ比較の半数以上が保存されないことが分かる。
私たちの研究は、評価効率と信頼性のトレードオフをナビゲートする上で、マイクロベンチマークユーザと開発者の両方に実用的なガイダンスを提供します。
関連論文リスト
- The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - Efficiently Ranking Software Variants with Minimal Benchmarks [7.542554018860094]
テストスイート最適化手法を用いて、安定したランキングを維持しながらベンチマークを削減できる新しい手法を提案する。
つまり、すべてのテストで変種と同じランキングを維持しながら、ベンチマークからインスタンスを削除します。
BISection Smpling(BISection Smpling, BISS)は, 最重要試験を戦略的に保持し, 新規な分別・対数法を適用して, 関連試験を効率的にサンプリングする手法である。
論文 参考訳(メタデータ) (2025-09-08T14:11:35Z) - Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation [103.66549325018741]
現在のベンチマークの違いを示す2つの重要な指標を紹介します。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
論文 参考訳(メタデータ) (2025-08-18T17:56:04Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。
我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文 参考訳(メタデータ) (2024-07-18T17:00:23Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。