論文の概要: Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
- arxiv url: http://arxiv.org/abs/2605.05802v1
- Date: Thu, 07 May 2026 07:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.597782
- Title: Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
- Title(参考訳): 選択的ロールアウト:マルチサンプルエージェントRLの中間軌道終了
- Authors: Zhiyuan Zhai, Xin Wang,
- Abstract要約: GRPO(Group-relative RL Training)は、トレーニングプロンプト毎に少数の並列ロールアウトをサンプリングする。
グループ内の報酬を拡大して、軌道ごとの利点を計算する。
プロンプトのロールアウトが同じ報酬で終わるとき、群は報酬の分散をゼロとし、勾配を持たない。
- 参考スコア(独自算出の注目度): 6.435733307123974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group-relative RL training (GRPO) samples a small group of parallel rollouts for every training prompt and uses their within-group reward spread to compute per-trajectory advantages. In agentic environments each rollout is a long multi-turn dialogue with one LLM call per step, so this multi-sample multiplier dominates the total training cost. When every rollout of a prompt ends with the same reward, the group has zero reward variance and contributes no gradient, so the extra rollouts add no information; such groups are common in practice (typically around 40% of all groups), so the wasted-compute fraction is substantial rather than marginal. Existing methods filter such groups at the prompt level, either after their rollouts are paid for or before any rollout begins, but both decide without using information that becomes available during the rollout itself. We instead ask whether the in-group divergence between the partial trajectories at an intermediate step can already predict that the group will be zero-variance: when the parallel rollouts have already converged on the same action prefix, the group is on track to produce a single reward, and we can stop early. We propose a one-parameter gate that stops a group when the mean pairwise prefix edit distance between its partial action sequences falls below a threshold. On a 60-iteration on-policy GRPO run on ALFWorld with Qwen2.5-7B, averaged over four random seeds, the gated arm finishes 10.7% faster in wall-clock (bootstrap 95% CI excludes 0) and shifts held-out success rate on 50 unseen tasks by +2.5 pp, with the held-out gain tracing to a measurable reduction in zero-advantage gradient-batch dilution. Code is available at https://github.com/zhiyuanZhai20/selective-rollout.
- Abstract(参考訳): グループ相対RLトレーニング(GRPO)は、トレーニングプロンプト毎に小さなグループ並列ロールアウトをサンプリングし、グループ内報酬をスプレッドして軌道毎の利点を計算する。
エージェント環境では、各ロールアウトは1ステップごとに1つのLLMコールを持つ長いマルチターン対話であり、このマルチサンプル乗算器はトレーニングコストの合計を支配している。
プロンプトのすべてのロールアウトが同じ報酬で終わるとき、群は報酬分散をゼロとし、勾配を持たないので、余分なロールアウトは情報を加えない。
既存のメソッドは、ロールアウトの支払いの後に、あるいはロールアウトが始まる前に、これらのグループをプロンプトレベルでフィルタリングするが、どちらもロールアウト自体で利用できる情報を使用しない。
代わりに、中間段階における部分軌跡間の群内ばらつきが、既に群がゼロ分散であると予測できるかどうかを尋ねる: 平行ロールアウトが同じ作用プレフィックス上に既に収束している場合、群は1つの報酬を生み出すために軌道上にあるので、早めに停止することができる。
本稿では,グループを停止させる1パラメータゲートを提案する。
ALFWorldでQwen2.5-7B平均4つのランダムなシードで実行される60イテレーションのGRPOでは、ゲートアームはウォールクロックで10.7%速くなる(ブートストラップ95%CIは0を除く)。
コードはhttps://github.com/zhiyuanZhai20/selective-rollout.comから入手できる。
関連論文リスト
- MARBLE: Multi-Aspect Reward Balance for Diffusion RL [71.6241143519038]
強化学習は、拡散モデルと人間の嗜好を整合させる主要なアプローチとなっている。
既存のプラクティスは、報酬ごとに1つのスペシャリストモデルをトレーニングすることで、複数の報酬を処理します。
我々は,各報酬に対する独立な優位推定器を維持する勾配空間最適化フレームワークMARBLEを提案する。
論文 参考訳(メタデータ) (2026-05-07T16:20:42Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Train Less, Learn More: Adaptive Efficient Rollout Optimization for Group-Based Reinforcement Learning [37.10958874118462]
強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて中心的な役割を果たす。
GRPO では、各クエリは LLM に、固定されたグループサイズ$N$のロールアウトのグループを生成するように促す。
グループ内のすべてのロールアウトが同じ結果を共有するとき、すべての正しいか不正確な場合、群正規化の利点はゼロとなる。
本稿では GRPO の強化である AERO (Adaptive Efficient Rollout Optimization) を導入する。
論文 参考訳(メタデータ) (2026-02-15T23:14:05Z) - RC-GRPO: Reward-Conditioned Group Relative Policy Optimization for Multi-Turn Tool Calling Agents [40.88916135445381]
報酬は希少であり、探索は高価であるため、大規模言語モデルではマルチターンのツールコールは困難である。
一般的なレシピであるSFTとGRPOは、グループ内報酬の変動が低いときに停止する。
本稿では、離散的な報酬トークンを用いて、探索を制御可能なステアリング問題として扱うRC-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-03T02:47:32Z) - MC-GRPO: Median-Centered Group Relative Policy Optimization for Small-Rollout Reinforcement Learning [11.456510890703994]
グループ相対ポリシー最適化手法は,プロンプト毎に複数のロールアウトを生成することで,言語モデルを訓練する。
ロールアウト予算が小さいリソース制約のある環境では、精度が低下することが多い。
我々は,小規模ロールアウト学習のためのシンプルかつ効果的なソリューションであるMC-GRPO(Median-Centered Group Relative Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-01-30T05:24:51Z) - Generalized Parallel Scaling with Interdependent Generations [58.43994876504917]
本稿では,相互依存応答を並列に生成するブリッジを提案する。
少数の新しいパラメータしか持たず、ブリッジは強化学習による相対平均精度の向上を図っている。
論文 参考訳(メタデータ) (2025-10-01T17:33:35Z) - BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models [57.304411396229035]
BranchGRPOは、ロールアウトプロセスを分岐木に再構成する手法である。
HPDv2.1イメージアライメントでは、BranchGRPOはDanceGRPOよりも最大でtextbf16%のアライメントスコアを改善する。
ハイブリッド版であるBranchGRPO-MixはDanceGRPOよりも4.7倍の速度でトレーニングを加速する。
論文 参考訳(メタデータ) (2025-09-07T12:53:06Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Improved Group Robustness via Classifier Retraining on Independent
Splits [6.930560177764658]
群分布的ロバスト最適化は、強力な最悪群性能を持つ学習モデルのベースラインとして広く使われている。
本稿では,トレーニングデータの独立分割に基づくリトレーニングのアイデアに基づいて,簡単な手法を設計する。
新たなサンプル分割手法を用いることで、微調整工程において、ロバストな最悪のグループ性能が得られることが判明した。
論文 参考訳(メタデータ) (2022-04-20T16:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。