論文の概要: CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning
- arxiv url: http://arxiv.org/abs/2510.15674v1
- Date: Fri, 17 Oct 2025 14:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.648328
- Title: CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning
- Title(参考訳): CarBoN:テスト時間推論を改善したBest-of-Nサンプリング
- Authors: Yung-Chen Tang, Pin-Yu Chen, Andrea Cavallaro,
- Abstract要約: 本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
- 参考スコア(独自算出の注目度): 62.56541355300587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Allocating more computation during inference time (test-time scaling) improves language model performance, especially for reasoning tasks. However, popular methods like Best-of-$N$ sampling often show diminishing returns as $N$ increases. To address this inefficiency, we introduce a general test-time calibration framework that adaptively modifies the model toward high-reward reasoning paths, with theoretical guarantees of improving the lower bound of expected reward under finite sampling, all without large language model (LLM) retraining. Within this framework, we propose CarBoN (Calibrated Best-of-$N$), a two-phase method that first explores the solution space and then learns a calibration of the logits via an input-specific temperature $T$ and additive shift vector $\delta$, guiding generation toward more reliable reasoning. Experiments on MATH-500 and AIME-2024 show that CarBoN improves efficiency, with up to $4\times$ fewer rollouts to reach the same accuracy, while often achieving higher accuracy under fixed budgets. We also analyze the complementary roles of $T$ and $\delta$ in balancing output diversity and correctness, and demonstrate that the framework also generalizes to step-level sampling strategies such as beam search. For more information, please refer to our project page at huggingface.co/spaces/TrustSafeAI/Test-Time-Calibration.
- Abstract(参考訳): 推論時間(テスト時間スケーリング)の間により多くの計算を割り当てることによって、特に推論タスクにおいて、言語モデルのパフォーマンスが向上する。
しかしながら、Best-of-N$サンプリングのような一般的なメソッドは、N$が増加するにつれてリターンが減少することが多い。
この非効率性に対処するため,我々は,大規模言語モデル (LLM) の再訓練を伴わずに,有限サンプリングの下で期待される報酬の下位境界を改善する理論的保証を伴って,モデルを高逆推論経路に向けて適応的に修正する一般的なテスト時校正フレームワークを導入する。
このフレームワーク内では、まず解空間を探索し、入力固有温度$T$と加算シフトベクトル$\delta$を用いてロジットの校正を学習し、より信頼性の高い推論に向けて生成を導く二相法であるCarBoN(Calibrated Best-of-N$)を提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4ドル以上のロールアウトが可能である。
また,出力の多様性と正しさのバランスをとる上での$T$と$\delta$の相補的な役割を解析し,ビームサーチなどのステップレベルのサンプリング戦略にも応用できることを実証する。
詳しくは、Huggingface.co/spaces/TrustSafeAI/Test-Time-Calibrationのプロジェクトページを参照してください。
関連論文リスト
- Provably Efficient and Agile Randomized Q-Learning [35.14581235983678]
我々は、サンプリングベースの探索をアジャイル、ステップワイド、ポリシー更新と統合した新しいQ-ラーニングアルゴリズムをRandomizedQと呼ぶ。
経験的に、RandomizedQは、ボーナスベースとベイズベースで標準ベンチマークを探索する既存のQラーニングモデルと比較して、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-06-30T16:08:29Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [48.55176091771745]
テストタイムスケーリングは、推論中に追加の計算リソースを割り当てることで、大きな言語モデルのパフォーマンスを向上させる。
Best-of-N (BoN) サンプリングはサンプリングベースの一般的なスケーリング手法である。
我々は,全Nサンプルの完全生成を回避する復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
コスト面では、ST-BoNはFull-BoNと同じ性能を達成し、計算コストを70%-80%削減し、同じコストで3~4ポイント精度を向上させることができる。
論文 参考訳(メタデータ) (2025-03-03T11:21:01Z) - InfAlign: Inference-aware language model alignment [58.66389179049758]
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。
本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T18:45:36Z) - Testing Calibration in Nearly-Linear Time [14.099477870728595]
プロパティテストのレンズによるキャリブレーションのアルゴリズム的な研究に焦点をあてる。
実験的なスムーズなキャリブレーション線形プログラムは,高構造グラフ上の最小コストフローの例として再計算できる,という簡単な観察を行う。
我々は,キャリブレーションの標準概念を忠実に捉え,我々のアルゴリズムが大規模なサンプルサイズに対応するために効率的にスケールできることを実証する実験を行った。
論文 参考訳(メタデータ) (2024-02-20T17:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。