論文の概要: Ranking Reasoning LLMs under Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2603.10960v1
- Date: Wed, 11 Mar 2026 16:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.058452
- Title: Ranking Reasoning LLMs under Test-Time Scaling
- Title(参考訳): 試験時間スケーリングによるLLMのランク付け
- Authors: Mohsen Hariri, Michael Hinczewski, Jing Ma, Vipin Chaudhary,
- Abstract要約: テストタイムスケーリングは、プロンプト毎に複数の出力をサンプリングすることで、推理LSMを評価する。
Scorioは、ペア比較モデル、アイテム応答理論(IRT)モデル、投票規則、グラフとスペクトルに基づく手法などの統計的ランキング手法を実装したライブラリである。
- 参考スコア(独自算出の注目度): 10.821119744235302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling evaluates reasoning LLMs by sampling multiple outputs per prompt, but ranking models in this regime remains underexplored. We formalize dense benchmark ranking under test-time scaling and introduce Scorio, a library that implements statistical ranking methods such as paired-comparison models, item response theory (IRT) models, voting rules, and graph- and spectral-based methods. Across $20$ reasoning models on four Olympiad-style math benchmarks (AIME'24, AIME'25, HMMT'25, and BrUMO'25; up to $N=80$ trials), most full-trial rankings agree closely with the Bayesian gold standard $\mathrm{Bayes}_{\mathcal{U}}@80$ (mean Kendall's $τ_b = 0.93$--$0.95$), and $19$--$34$ methods recover exactly the same ordering. In the single-trial regime, the best methods reach $τ_b \approx 0.86$. Using greedy decoding as an empirical prior ($\mathrm{Bayes}_{\mathbf{R}_0}@N$) reduces variance at $N=1$ by $16$--$52\%$, but can bias rankings when greedy and stochastic sampling disagree. These results identify reliable ranking methods for both high- and low-budget test-time scaling. We release Scorio as an open-source library at https://github.com/mohsenhariri/scorio.
- Abstract(参考訳): テストタイムスケーリングは、プロンプト毎に複数の出力をサンプリングすることで、推理LSMを評価するが、この状態のランキングモデルはまだ未定である。
Scorioは,ペア比較モデル,項目応答理論(IRT)モデル,投票規則,グラフおよびスペクトルに基づく手法などの統計的ランキング手法を実装したライブラリである。
Olympiadスタイルの4つのベンチマーク(AIME'24, AIME'25, HMMT'25, BrUMO'25; 最大$N=80$トライアル)における20ドル以上の推論モデルは、ベイズ金の標準である$\mathrm{Bayes}_{\mathcal{U}}@80$(mean Kendall's $τ_b = 0.93$--$0.95$)と、19$-34$メソッドと完全に一致する。
単一審理法では、最良の方法は$τ_b \approx 0.86$に達する。
greedy decoding as an empirical prior ($\mathrm{Bayes}_{\mathbf{R}_0}@N$) は、$N=1$ by $116$-52\%$ で分散を減少させるが、greedy と stochastic sample が一致しない場合のバイアスランク付けは可能である。
これらの結果から,高予算および低予算の試験時間スケーリングにおける信頼性の高いランク付け手法が同定された。
私たちはScorioをhttps://github.com/mohsenhariri/scorio.comのオープンソースライブラリとしてリリースしています。
関連論文リスト
- Mallows Model with Learned Distance Metrics: Sampling and Maximum Likelihood Estimation [0.1534667887016089]
データから直接距離距離を学習するMallowsモデルの一般化を提案する。
具体的には、$L_alpha$ distances: $d_alpha(pi,sigma):=sum_i=1 |pi(i)-sigma(i)|alpha$である。
このサンプリングアルゴリズムを用いて、中央ランク、分散パラメータ、および最適距離距離を共同で推定する、効率的な最大類似度推定(MLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-10T18:52:09Z) - Guided Speculative Inference for Efficient Test-Time Alignment of LLMs [13.48983511034258]
Guided Speculative Inferenceは、大規模言語モデルにおける効率的な報酬誘導デコーディングのための新しいアルゴリズムである。
最適傾きポリシー $pi_beta,B(ymid x) propto pi_B(ymid x)exp(beta,r(x,y))$ of soft best-of-n$ を基本モデル $pi_B$ の下で確実に近似する。
推論ベンチマーク実験では, 標準ソフトの$-of-n$と$pi_Sよりも高い精度が得られる。
論文 参考訳(メタデータ) (2025-06-04T16:12:26Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Uncertainty Quantification of MLE for Entity Ranking with Covariates [3.2839905453386162]
本稿では,ペア比較に基づくランキング問題の統計的推定と推定について検討する。
我々は、有名なBradley-Terry-Luceモデルを拡張した新しいモデルCAREモデルを提案する。
我々は、スパース比較グラフの下で、$alpha_i*_i=1n$と$beta*$の最大確率推定器を導出する。
大規模数値研究による理論結果の検証と相互資金保有データセットへの適用について検討する。
論文 参考訳(メタデータ) (2022-12-20T02:28:27Z) - Exact Paired-Permutation Testing for Structured Test Statistics [67.71280539312536]
構造化されたテスト統計群のペア置換テストに対して,効率的な正確なアルゴリズムを提案する。
我々の正確なアルゴリズムはモンテカルロ近似よりも10ドル速く、共通のデータセットに20000ドルのサンプルがある。
論文 参考訳(メタデータ) (2022-05-03T11:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。