論文の概要: Cross-Epoch Adaptive Rollout Optimization for RL Post-Training
- arxiv url: http://arxiv.org/abs/2606.05606v1
- Date: Thu, 04 Jun 2026 02:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.495793
- Title: Cross-Epoch Adaptive Rollout Optimization for RL Post-Training
- Title(参考訳): RL後処理におけるクロスエポック適応ロールアウト最適化
- Authors: Yiming Zong, Yige Wang, Jiashuo Jiang,
- Abstract要約: LLMポストトレーニングは、しばしばプロンプト毎に複数のロールアウトをサンプリングする強化学習手法に依存している。
既存のほとんどのアプローチでは、トレーニング信号に大きな違いがあるにも関わらず、すべてのプロンプトに対して固定的なロールアウト予算を使用している。
我々は、固定されたグローバル予算の下でのアダプティブ・ロールアウト・アロケーションについて検討し、即時還元リターンを伴うオンラインリソースアロケーションとして問題を定式化する。
- 参考スコア(独自算出の注目度): 5.459625245330074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM post-training often relies on reinforcement learning methods that sample multiple rollouts per prompt, yet most existing approaches use a fixed rollout budget for every prompt, despite large differences in the training signal different prompts provide. In this paper, we study adaptive rollout allocation under a fixed global budget and formulate the problem as online resource allocation with prompt-level diminishing returns. Our method, CERO, maintains a Beta posterior over each prompt's success probability and uses the posterior expected Bernoulli variance as a Bayesian estimate of the value of additional rollouts. We use this estimate to construct a concave, saturating utility over cumulative allocations, yielding an objective in which decisions across prompts and epochs are coupled by the global budget. Since the resulting objective is temporally nonseparable, we derive a Fenchel-dual reformulation and update both prompt-level and budget-level dual variables via projected online gradient descent. Under fixed prompt utilities, we prove an $O(\sqrt{K})$ regret bound against the offline allocation benchmark. Experiments on mathematical-reasoning problems show that CERO consistently outperforms GRPO across multiple open-weight LLMs and benchmarks, demonstrating that adaptive rollout budgeting can improve sample efficiency.
- Abstract(参考訳): LLMポストトレーニングは、しばしばプロンプト毎に複数のロールアウトをサンプリングする強化学習手法に依存するが、既存のほとんどのアプローチでは、トレーニング信号の異なるプロンプトに大きな違いがあるにもかかわらず、プロンプト毎に固定されたロールアウト予算を使用する。
本稿では,固定されたグローバル予算の下でのアダプティブ・ロールアウト・アロケーションについて検討し,アダプティブ・レベルの低下したリターンを伴うオンラインリソースアロケーションとして問題を定式化する。
CERO法は各プロンプトの成功確率に対してベータ後続を保ち、後続予測ベルヌーイ分散を追加ロールアウトの値のベイズ推定として利用する。
我々は,この推定値を用いて,累積割当よりも凹凸で飽和したユーティリティを構築し,プロンプトとエポックをまたいだ決定を世界予算で結合する目標を導出する。
得られた目的は時間的に分離できないため、Fenchel-dual の改定を導出し、オンライン勾配の予測により、プロンプトレベルと予算レベルの両変数を更新する。
固定されたプロンプトユーティリティの下では、オフラインアロケーションベンチマークに対して$O(\sqrt{K})$ regret を証明します。
数学推論問題に関する実験により、CEROは複数のオープンウェイトLDMとベンチマークでGRPOを一貫して上回り、適応的なロールアウト予算がサンプル効率を向上させることを示した。
関連論文リスト
- Spend Your Rollouts Where It Counts: Rollout Allocation for Group-Based RL Post-Training [34.81218483901967]
強化学習は、大規模言語モデルの訓練後において支配的なパラダイムである。
グループベースのポリシー最適化手法は、プロンプト毎に複数のロールアウトから利点を計算する。
Pilot-Commitは、グループベースのRLポストトレーニングのための、予算対応のロールアウトアロケーションフレームワークである。
論文 参考訳(メタデータ) (2026-05-26T06:41:13Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards [26.5011687714416]
既存のグループベースのポリシー最適化手法は、すべてのトレーニングプロンプトに対して一定数のロールアウトを割り当てる。
この均一な割り当ては全てのプロンプトを等しく情報的扱いし、非効率的な計算予算の使用と訓練の進捗を妨げる可能性がある。
本稿では、既存のバッチのプロンプトに所定のロールアウト予算を割り当て、ポリシー更新のグラデーションのばらつきを最小限に抑える可変インフォームド予測割当戦略であるVIPを紹介する。
論文 参考訳(メタデータ) (2026-02-02T03:50:01Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。