論文の概要: What should post-training optimize? A test-time scaling law perspective
- arxiv url: http://arxiv.org/abs/2605.10716v1
- Date: Mon, 11 May 2026 15:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.937898
- Title: What should post-training optimize? A test-time scaling law perspective
- Title(参考訳): ポストトレーニングの最適化とは何か? テストタイムスケーリング法の観点から
- Authors: Muheng Li, Jian Qian, Wenlong Mou,
- Abstract要約: 大規模な言語モデルは、テストタイム戦略でますますデプロイされる。
標準目的は1つのレスポンスの平均報酬を最適化するが、最高$N$のパフォーマンスは報酬分布の上限によって管理される。
最近のテストタイム対応の目標は、このミスマッチに部分的に対処するが、通常、トレーニングはデプロイメントと同じプロンプト毎のロールアウト予算を使用できると仮定する。
最良N$目標の政策勾配は、上位テール統計を外挿することにより、より小さなロールアウト群から近似できることを示す。
- 参考スコア(独自算出の注目度): 11.49701649103495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed with test-time strategies: sample $N$ responses, score them with a reward model or verifier, and return the best. This deployment rule exposes a mismatch in post-training: standard objectives optimize the mean reward of a single response, whereas best-of-$N$ performance is governed by the upper tail of the reward distribution. Recent test-time-aware objectives partly address this mismatch, but typically assume that training can use the same per-prompt rollout budget as deployment, which is impractical when post-training must cover many prompts while deployment can allocate much larger per-prompt test-time compute. We study this budget-mismatch regime, where only $m\ll N$ per-prompt rollouts are available during training but the target objective is best-of-$N$ deployment. Under structural assumptions on the reward tails, we show that the policy gradient of the best-of-$N$ objective can be approximated from a much smaller rollout group by extrapolating upper-tail statistics. This yields a family of Tail-Extrapolated estimators for best-of-$N$-oriented post-training: a simple direct estimator, Tail-Extrapolated Advantage (TEA), and a fixed-order debiased Prefix-TEA estimator based on moment cancellation. Experiments on instruction-following tasks show that TEA and Prefix-TEA improve best-of-$N$ performance across different language models, reward models and datasets under various training and test-time budget settings.
- Abstract(参考訳): サンプルの$N$レスポンス、報酬モデルまたは検証子でそれらをスコアし、ベストを返却する。
このデプロイメントルールは、トレーニング後のミスマッチを露呈する: 標準の目的は、単一のレスポンスの平均的な報酬を最適化する。
最近のテストタイム認識の目的はこのミスマッチに部分的に対処するが、通常、トレーニングはデプロイと同じプロンプト毎のロールアウト予算を使用できると仮定する。
我々は、この予算ミスマッチ方式について研究し、トレーニング中にN$あたりのロールアウトが利用できるのはたったの$m\ll N$である。
報酬テールの構造的仮定の下では、最良N$目標のポリシー勾配は、上位テール統計を外挿することにより、より小さなロールアウト群から近似できることを示す。
これは、Tail-Extrapolated Advantage (TEA) という単純な直接推定器と、モーメントキャンセルに基づく固定順序脱バイアスPrefix-TEA推定器である。
インストラクションフォロータスクの実験によると、TAAとPrefix-TEAは、さまざまなトレーニングとテストタイム予算設定の下で、さまざまな言語モデル、報酬モデル、データセット間でのベスト・オブ・N$のパフォーマンスを改善する。
関連論文リスト
- Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards [26.5011687714416]
既存のグループベースのポリシー最適化手法は、すべてのトレーニングプロンプトに対して一定数のロールアウトを割り当てる。
この均一な割り当ては全てのプロンプトを等しく情報的扱いし、非効率的な計算予算の使用と訓練の進捗を妨げる可能性がある。
本稿では、既存のバッチのプロンプトに所定のロールアウト予算を割り当て、ポリシー更新のグラデーションのばらつきを最小限に抑える可変インフォームド予測割当戦略であるVIPを紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:50:01Z) - Predicting and improving test-time scaling laws via reward tail-guided search [11.49701649103495]
テストタイムのスケーリングは、大規模言語モデルの推論能力を向上するための重要な道として現れました。
テール誘導探索によるスケーリング特性の予測と改善のための新しい手法を提案する。
本手法は,報酬のテール分布を推定することにより,総括評価を必要とせず,LLMのスケーリング法則を予測する。
論文 参考訳(メタデータ) (2026-02-01T23:40:25Z) - Train Long, Think Short: Curriculum Learning for Efficient Reasoning [51.506559652495476]
長さ制御推論のためのカリキュラム学習戦略を提案する。
当社の手法は寛大なトークン予算から始まり、トレーニングをしながら徐々に厳格化します。
GSM8K、MATH500、SVAMP、College Math、GSM+の実験は、カリキュラムベースのトレーニングが固定予算ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-08-12T13:48:03Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - One-Stage Top-$k$ Learning-to-Defer: Score-Based Surrogates with Theoretical Guarantees [6.792743621449621]
最初の1段階のTop-k$ Learning-to-Deferフレームワークを紹介します。
我々は、最もコスト効率の良いエンティティラベルや専門家1人当たりのインプットを$k$で選択するスコアベースの共有モデルを学ぶ。
CIFAR-10とSVHNの実験により、我々の1段階のTop-$k$法がTop-1deferralを厳密に上回っていることを確認した。
論文 参考訳(メタデータ) (2025-05-15T10:41:16Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。
我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。
我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-03-27T18:00:08Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。