論文の概要: Predicting and improving test-time scaling laws via reward tail-guided search
- arxiv url: http://arxiv.org/abs/2602.01485v1
- Date: Sun, 01 Feb 2026 23:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.812912
- Title: Predicting and improving test-time scaling laws via reward tail-guided search
- Title(参考訳): 報酬テール誘導探索によるテスト時間のスケーリング法則の予測と改善
- Authors: Muheng Li, Jian Qian, Wenlong Mou,
- Abstract要約: テストタイムのスケーリングは、大規模言語モデルの推論能力を向上するための重要な道として現れました。
テール誘導探索によるスケーリング特性の予測と改善のための新しい手法を提案する。
本手法は,報酬のテール分布を推定することにより,総括評価を必要とせず,LLMのスケーリング法則を予測する。
- 参考スコア(独自算出の注目度): 11.49701649103495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling has emerged as a critical avenue for enhancing the reasoning capabilities of Large Language Models (LLMs). Though the straight-forward ''best-of-$N$'' (BoN) strategy has already demonstrated significant improvements in performance, it lacks principled guidance on the choice of $N$, budget allocation, and multi-stage decision-making, thereby leaving substantial room for optimization. While many works have explored such optimization, rigorous theoretical guarantees remain limited. In this work, we propose new methodologies to predict and improve scaling properties via tail-guided search. By estimating the tail distribution of rewards, our method predicts the scaling law of LLMs without the need for exhaustive evaluations. Leveraging this prediction tool, we introduce Scaling-Law Guided (SLG) Search, a new test-time algorithm that dynamically allocates compute to identify and exploit intermediate states with the highest predicted potential. We theoretically prove that SLG achieves vanishing regret compared to perfect-information oracles, and achieves expected rewards that would otherwise require a polynomially larger compute budget required when using BoN. Empirically, we validate our framework across different LLMs and reward models, confirming that tail-guided allocation consistently achieves higher reward yields than Best-of-$N$ under identical compute budgets. Our code is available at https://github.com/PotatoJnny/Scaling-Law-Guided-search.
- Abstract(参考訳): テスト時のスケーリングは、Large Language Models(LLMs)の推論能力を向上するための重要な道として現れています。
Best-of-N$' (BoN) 戦略は、すでにパフォーマンスが大幅に改善されているが、N$、予算配分、多段階決定の選択に関する原則的なガイダンスが欠けているため、かなりの最適化の余地が残されている。
多くの研究がそのような最適化を探求しているが、厳密な理論的保証は依然として限られている。
本研究では,テール誘導探索によるスケーリング特性の予測と改善のための新しい手法を提案する。
本手法は,報酬のテール分布を推定することにより,総括評価を必要とせず,LLMのスケーリング法則を予測する。
この予測ツールを活用することで、Scaling-Law Guided (SLG) Searchを導入した。これは、計算を動的に割り当て、最も予測可能な中間状態を特定し、活用する新しいテストタイムアルゴリズムである。
理論上,SLGが完全情報オラクルと比較して後悔をなくすことを証明し,BoNを使用する場合に必要となる多項式的に大きな計算予算を必要とする期待された報酬を達成する。
実験的に、我々は異なるLLMと報奨モデルにまたがってフレームワークを検証し、尾誘導アロケーションが同一の計算予算の下でBest-of-N$よりも高い報奨利益を一貫して達成していることを確認した。
私たちのコードはhttps://github.com/PotatoJnny/Scaling-Law-Guided-searchで公開しています。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models [62.3458061002951]
本稿では,新たなスケール法であるFarseerを紹介した。
モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則よりも経験的データに非常によく適合する。
我々の手法は正確で頑健で、非常に一般化可能な予測をもたらし、優れた外挿能力を示す。
論文 参考訳(メタデータ) (2025-06-12T17:59:23Z) - Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [39.25335214877435]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-17T15:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。