論文の概要: Don't Pass$\mathtt{@}k$: A Bayesian Framework for Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2510.04265v1
- Date: Sun, 05 Oct 2025 16:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.548234
- Title: Don't Pass$\mathtt{@}k$: A Bayesian Framework for Large Language Model Evaluation
- Title(参考訳): Don't Pass$\mathtt{@}k$: 大規模言語モデル評価のためのベイズ的フレームワーク
- Authors: Mohsen Hariri, Amirhossein Samandar, Michael Hinczewski, Vipin Chaudhary,
- Abstract要約: Pass$@k$ は LLM の推論のパフォーマンスを報告するのに広く使われているが、不安定で誤解を招くようなランキングを得ることが多い。
本稿では、Pass$@k$をモデルの基本成功確率と信頼区間の後方推定に置き換える原理的ベイズ評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.082208996639461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pass$@k$ is widely used to report performance for LLM reasoning, but it often yields unstable, misleading rankings, especially when the number of trials (samples) is limited and compute is constrained. We present a principled Bayesian evaluation framework that replaces Pass$@k$ and average accuracy over $N$ trials (avg$@N$) with posterior estimates of a model's underlying success probability and credible intervals, yielding stable rankings and a transparent decision rule for differences. Evaluation outcomes are modeled as categorical (not just 0/1) with a Dirichlet prior, giving closed-form expressions for the posterior mean and uncertainty of any weighted rubric and enabling the use of prior evidence when appropriate. Theoretically, under a uniform prior, the Bayesian posterior mean is order-equivalent to average accuracy (Pass$@1$), explaining its empirical robustness while adding principled uncertainty. Empirically, in simulations with known ground-truth success rates and on AIME'24/'25, HMMT'25, and BrUMO'25, the Bayesian/avg procedure achieves faster convergence and greater rank stability than Pass$@k$ and recent variants, enabling reliable comparisons at far smaller sample counts. The framework clarifies when observed gaps are statistically meaningful (non-overlapping credible intervals) versus noise, and it naturally extends to graded, rubric-based evaluations. Together, these results recommend replacing Pass$@k$ for LLM evaluation and ranking with a posterior-based, compute-efficient protocol that unifies binary and non-binary evaluation while making uncertainty explicit. Code is available at https://mohsenhariri.github.io/bayes-kit
- Abstract(参考訳): Pass$@k$はLLM推論のパフォーマンスを報告するために広く使われているが、特にトライアルの数(サンプル)が限られ、計算が制限されている場合、不安定で誤解を招くことが多い。
本稿では,Pass$@k$と平均精度を$N$トライアル(avg$@N$)に置き換えたベイズ評価フレームワークを提案する。
評価結果は(0/1ではなく)ディリクレ前のカテゴリーとしてモデル化され、後部の平均に対する閉形式表現と重み付けされたルーリックの不確実性を与え、適切であれば事前証拠の使用を可能にする。
理論的には、一様の事前の下では、ベイズ平均は平均精度に等しい(Pass$@1$)。
AIME'24/'25、HMMT'25、BrUMO'25のシミュレーションでは、ベイジアン/アヴグ法はパス$$k$や最近の変種よりも高速な収束と階数安定性を実現し、はるかに小さなサンプル数で信頼性の高い比較を可能にする。
このフレームワークは、観測されたギャップが統計的に有意な(重複しない信頼区間)かノイズであるかを明確にし、自然に格付けされたルーリックに基づく評価にまで拡張する。
これらの結果は、LSM評価のためのPass$k$と、不確実性を明示しながらバイナリと非バイナリの評価を統一する後方ベースの計算効率のプロトコルに置き換えることを推奨している。
コードはhttps://mohsenhariri.github.io/bayes-kitで入手できる。
関連論文リスト
- TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - In-Context Parametric Inference: Point or Distribution Estimators? [66.22308335324239]
償却点推定器は一般に後部推論より優れているが、後者は低次元問題では競争力がある。
実験の結果, 償却点推定器は一般に後部推定より優れているが, 後者は低次元問題では競争力があることがわかった。
論文 参考訳(メタデータ) (2025-02-17T10:00:24Z) - Semiparametric Bayesian Difference-in-Differences [2.458652618559425]
差分差分法 (DiD) 研究設計において, 被治療者に対する平均治療効果に対する半パラメトリックベイズ推定について検討した。
頻繁な妥当性を持つ2つの新しいベイズ手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T20:41:36Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - Double Robust Bayesian Inference on Average Treatment Effects [2.458652618559425]
不整合下での平均処理効果(ATE)に対する二重頑健なベイズ推定法を提案する。
新しいベイズ的アプローチでは、まず条件付き平均関数の事前分布を調整し、得られた ATE の後方分布を補正する。
論文 参考訳(メタデータ) (2022-11-29T15:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。