論文の概要: Spend Your Rollouts Where It Counts: Rollout Allocation for Group-Based RL Post-Training
- arxiv url: http://arxiv.org/abs/2605.26606v1
- Date: Tue, 26 May 2026 06:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.70498
- Title: Spend Your Rollouts Where It Counts: Rollout Allocation for Group-Based RL Post-Training
- Title(参考訳): グループベースのRLポストトレーニングのためのロールアウトアロケーション
- Authors: Woojeong Kim, Ziyi Yang, Jing Nathan Yan, Jialu Liu,
- Abstract要約: 強化学習は、大規模言語モデルの訓練後において支配的なパラダイムである。
グループベースのポリシー最適化手法は、プロンプト毎に複数のロールアウトから利点を計算する。
Pilot-Commitは、グループベースのRLポストトレーニングのための、予算対応のロールアウトアロケーションフレームワークである。
- 参考スコア(独自算出の注目度): 34.81218483901967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is the dominant paradigm for post-training large language models. However, in the online, on-policy setting, rollout generation dominates the computational cost of training. Group-based policy optimization methods compute advantages from multiple rollouts per prompt, yet they indiscriminately allocate budget to prompts with collapsed reward distributions, wasting expensive rollouts on negligible learning signals. We demonstrate that group-based updates are most effective in regimes of high reward variance. Since the policy evolves throughout training, prompt informativeness must be estimated online rather than precomputed, but exhaustively evaluating every prompt is computationally prohibitive. We introduce Pilot-Commit, a budget-aware rollout allocation framework for group-based RL post-training. Pilot-Commit decouples prompt evaluation from exploitation: a pilot stage estimates per-prompt informativeness using a fraction of the budget, and the remaining rollouts are allocated to high-leverage prompts while low-signal prompts are skipped. Across multiple math reasoning benchmarks and model scales from 1.5B to 14B parameters, Pilot-Commit matches baseline accuracy with significantly lower sampling costs, reaching target accuracy up to $1.9\times$ faster than GRPO and $4.0\times$ faster than DAPO in cumulative rollouts.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、大規模言語モデルの訓練後において支配的なパラダイムである。
しかし、オンラインのオンライン環境では、ロールアウト生成がトレーニングの計算コストを支配している。
グループベースのポリシー最適化手法は,各プロンプト毎の複数ロールアウトから利点を計算するが,報酬分布の低下したプロンプトに予算を無差別に割り当て,無視可能な学習信号に対する高価なロールアウトを浪費する。
グループベースの更新は、高い報酬分散のレギュレーションにおいて最も効果的であることを示す。
政策は訓練を通じて進化するので、事前計算ではなく、情報伝達をオンラインで見積もる必要があるが、全てのプロンプトを徹底的に評価することは、計算的に禁止されている。
グループベースのRLポストトレーニングのための,予算対応のロールアウトアロケーションフレームワークであるPilot-Commitを紹介する。
パイロットステージは、予算のごく一部を使って、プロンプト毎の情報度を推定し、残りのロールアウトは、低信号のプロンプトをスキップしながら、高平均のプロンプトに割り当てられる。
複数の数学推論ベンチマークとモデルスケールを1.5Bから14Bのパラメータで比較すると、Pilot-Commitはベースライン精度をかなり低いサンプリングコストで一致し、目標精度はGRPOより1.9\times$、累積ロールアウトでは4.0\times$である。
関連論文リスト
- BASIS: Batchwise Advantage Estimation from Single-Rollout Information Sharing for LLM Reasoning [9.698479933114552]
既存のアルゴリズムは、値推定とポリシー学習における計算効率とサンプル効率のトレードオフに直面している。
このトレードオフに対処するために,ポストフリーな批判アルゴリズムを導入する。
実験では、REINFORCE++と比較して、値関数推定のMSEを69%削減している。
論文 参考訳(メタデータ) (2026-05-26T17:06:41Z) - Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States [14.658333957936769]
内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
論文 参考訳(メタデータ) (2026-05-08T10:49:36Z) - Where to Spend Rollouts: Hit-Utility Optimal Rollout Allocation for Group-Based RLVR [25.35547462790362]
グループベースのポリシー最適化手法は通常、各プロンプトに一定数のロールアウトを割り当てる。
我々は、ヒットユーティリティを導入し、提案されたプロンプトの追加アロケーションにおける少なくとも1つのロールアウトが正しいという後続の確率について紹介する。
本研究では,Hit-Utility Optimal Rollout Allocation (HORA)を提案する。
論文 参考訳(メタデータ) (2026-05-08T01:42:25Z) - Near-Future Policy Optimization [51.760544033045726]
検証可能な報酬(RLVR)による強化学習は、学習後の中核的なレシピとなっている。
textbfNear-Future textbfPolicy textbfOptimization (textbfNPO)を提案する。
論文 参考訳(メタデータ) (2026-04-22T16:20:41Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning [31.843129392507716]
Jackpotは、ポリシーとロールアウトモデルを共同で更新する統合トレーニング目標を統合するフレームワークである。
我々の理論的分析は、OBRSが制御可能な受理予算の下で、目標分布に近いロールアウト分布を一貫して移動していることを示している。
論文 参考訳(メタデータ) (2026-02-05T18:57:01Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [77.16976971950785]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOは絶対的なアドバンテージを低く保ち、勾配計算や更新に必要な数を大幅に削減する。
実験の結果、CPPOはGSM8Kで最大7.98タイム、Mathで3.48タイムで最大7.48タイム、オリジナルのGRPOと比較して精度を保っている。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。