論文の概要: Towards Reliable LLM Evaluation: Correcting the Winner's Curse in Adaptive Benchmarking
- arxiv url: http://arxiv.org/abs/2605.05973v1
- Date: Thu, 07 May 2026 10:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.693322
- Title: Towards Reliable LLM Evaluation: Correcting the Winner's Curse in Adaptive Benchmarking
- Title(参考訳): 信頼性の高いLCM評価に向けて - 適応ベンチマークにおける勝者曲線の修正
- Authors: Yang Xu, Jiefu Zhang, Haixiang Sun, Zihan Zhou, Tianyu Cao, Vaneet Aggarwal,
- Abstract要約: 我々は,この手順レベルの目標を明示的なチューニング予算の下で推論する。
選択対応の繰り返しレポートプロトコルであるSIRENを提案する。
制御されたシミュレーションとMMLU-Proチューニング実験は、勝者ベースのレポートが楽観的であることを示している。
- 参考スコア(独自算出の注目度): 40.44372785257615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive prompt and program search makes LLM evaluation selection-sensitive. Once benchmark items are reused inside tuning, the observed winner's score need not estimate the fresh-data performance of the full tune-then-deploy procedure. We study inference for this procedure-level target under explicit tuning budgets. We propose SIREN, a selection-aware repeated-split reporting protocol that freezes the post-search shortlist, separates splitwise selection from held-out evaluation, and uses an item-level Gaussian multiplier bootstrap for uncertainty quantification. In a fixed-shortlist regime with smooth stabilized selection, the estimator admits a first-order item-level representation, and the bootstrap yields valid simultaneous inference on a finite budget grid. This supports confidence intervals for procedure-performance curves and pre-specified equal-budget and cross-budget comparisons. Controlled simulations and MMLU-Pro tuning experiments show that winner-based reporting can be optimistic and can change deployment conclusions, while SIREN remains close to the finite-sample reporting target.
- Abstract(参考訳): 適応的なプロンプトとプログラム探索により、LCMの評価は選択に敏感になる。
ベンチマーク項目がチューニング内で再利用されると、観測された勝者のスコアは、完全なチューン・then-deploy手順の更新データパフォーマンスを見積もる必要はない。
我々は,この手順レベルの目標を明示的なチューニング予算の下で推論する。
SIRENは検索後ショートリストを凍結し、保持評価から分割選択を分離し、不確実性定量化のためにアイテムレベルのガウス乗算器ブートストラップを使用する。
安定選択がスムーズな固定ショートリスト方式では、推定器は一階アイテムレベルの表現を認め、ブートストラップは有限予算グリッド上で有効に同時推論する。
これは、プロシージャ・パフォーマンス曲線の信頼区間と、事前に特定された等予算とクロス予算の比較をサポートする。
制御されたシミュレーションとMMLU-Proチューニング実験により、勝者ベースのレポートは楽観的であり、デプロイメントの結論を変えることができる一方で、SIRENは有限サンプルレポートターゲットに近づいたままである。
関連論文リスト
- Confident Rankings with Fewer Items: Adaptive LLM Evaluation with Continuous Scores [25.638175689769934]
IRTベースの適応テストの原則的拡張を連続有界スコア(ROUGE, BLEU, LLM-as-a-Judge)に適用する。
本稿では,信頼性の高いモデルランキングを実現するための適応的停止基準付き不確実性意識ランクアを導入し,できるだけ少数の項目をテストする。
提案手法では,各項目の2%をランダムサンプリングよりも格付け相関を0.12改善し,95%の精度で信頼度予測を行う。
論文 参考訳(メタデータ) (2026-01-20T11:59:13Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [61.86327960322782]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。
最適化に基づく最適化手法であるMERITを導入する。
MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文 参考訳(メタデータ) (2025-06-23T19:59:30Z) - CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges [21.580762639442913]
推論中に選択バイアスを緩和する新しいラベルフリー手法であるCalibraEvalを紹介する。
CalibraEvalは、バイアスのない予測分布に合わせて観測された予測分布を調整するための最適化タスクとしてデバイアスを再構成する。
本稿では,CalibraEvalが選択バイアスを効果的に軽減し,既存のデバイアス法と比較して性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-20T13:47:39Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。