論文の概要: Rollout-Level Advantage-Prioritized Experience Replay for GRPO
- arxiv url: http://arxiv.org/abs/2606.04560v2
- Date: Thu, 04 Jun 2026 06:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.303276
- Title: Rollout-Level Advantage-Prioritized Experience Replay for GRPO
- Title(参考訳): GRPOのロールアウトレベルアドバンテージ・プリオライト化エクスペリエンス・リプレイ
- Authors: Gyeongtae Yoo, Sanghyeok Park, Soohyuk Jang, Ik-hwan Kim, Sungroh Yoon,
- Abstract要約: GRPOのためのロールアウトレベルのリプレイバッファを提案し、グループ全体ではなく個々のロールアウトを格納し、サンプリングする。
Qwen3-Baseは5つのベンチマークでスケールするが,本手法はGRPOより優れている。
- 参考スコア(独自算出の注目度): 37.432640830521024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards with GRPO is a standard approach for post-training reasoning LLMs. It remains sample inefficient. Each rollout is used for a single gradient update and then discarded. Naive replay is not well suited in this setting because LLM policies drift quickly per gradient step. Stored rollouts therefore become stale and can destabilize training. We propose a rollout-level replay buffer for GRPO that stores and samples individual rollouts rather than whole groups. The buffer bounds staleness through age eviction. Any rollout older than tau_max training steps is removed. The buffer also preserves on-policy data via fresh-anchored composition. Each batch keeps its fresh on-policy rollouts and then concatenates replay rollouts drawn separately from the buffer. We prioritize replay by per-rollout advantage magnitude and recycle individual rollouts whose advantages are large. Across three Qwen3-Base scales on five math benchmarks, our method outperforms GRPO and naive replay baselines. Gains are positive at every scale and grow with model size. The largest gain is +4.35 pp on the five-benchmark average at 4B. Under an AES metric that jointly measures accuracy and token efficiency, the efficiency margin over GRPO is again largest at 4B, at +0.579.
- Abstract(参考訳): GRPOによる検証可能な報酬からの強化学習は、LLMの学習後推論の標準的アプローチである。
サンプル非効率である。
各ロールアウトは単一の勾配更新に使用され、その後破棄される。
LLMポリシーは勾配ごとに急速にドリフトするため、この設定ではナイーブリプレイは適していない。
そのため、保管されたロールアウトは不安定になり、トレーニングを不安定にすることができる。
GRPOのためのロールアウトレベルのリプレイバッファを提案し、グループ全体ではなく個々のロールアウトを格納し、サンプリングする。
バッファは年齢差によって安定度を束縛する。
tau_maxトレーニングステップより古いロールアウトはすべて削除される。
バッファはまた、新鮮なアンコールされた合成を通して、政治上のデータを保存する。
各バッチは、新しいオンポリーロールアウトを保持し、その後、バッファから引き出されたロールアウトを連結する。
ロールアウト毎のアドバンテージサイズによるリプレイを優先し,大きなメリットを持つ個々のロールアウトをリサイクルする。
Qwen3-Baseは5つのベンチマークでスケールするが,本手法はGRPOより優れている。
利得はあらゆる規模で肯定的であり、モデルサイズで成長する。
最大利回りは5ベンチマーク平均4Bで+4.35ppである。
精度とトークン効率を共同測定するAES測定値の下では、GRPOの効率マージンは4B、+0.579で再び最大である。
関連論文リスト
- On-Policy Replay for Continual Supervised Fine-Tuning [22.944606442798147]
オン・ポリティクスの信号は、オフ・ポリティクスの監視よりも確実に忘れを減らします。
提案手法であるOPR (On-Policy Replay) は, 歴史的プロンプトの小さな予算において, 最新のチェックポイントをロールアウトする。
最も鋭いストレステストでは、OPRはBWTを10%のリプレイ予算で-0.65、1%の予算で-2.29に引き上げる。
論文 参考訳(メタデータ) (2026-05-28T07:19:47Z) - How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning [7.042913010118603]
GRPO方式のアルゴリズムは,従来想定されていたよりもはるかに大きなロールアウト安定化を許容できることを示す。
本稿では,少数の逐次生成最適化段階にトレーニングを編成するRLトレーニングフレームワークであるMu-GRPOを提案する。
5つの言語モデルと複数の数学推論ベンチマークで、 Mu-GRPO は標準GRPO の性能にマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T17:58:53Z) - Gradient Extrapolation-Based Policy Optimization [35.73727913372324]
GXPOは、アクティブフェーズ中に3つの後方パスのみを使用して、より長い局所的なルックアヘッドを近似する。
GXPOは2つの速いステップを踏んで、変更の方法を測定し、仮想的なKステップのルックアヘッドポイントを予測し、ポリシーをそのポイントへ移動し、修正更新を適用する。
ルックアヘッド信号が不安定になると、GXPOは自動的に標準のシングルパスGRPOに切り替える。
論文 参考訳(メタデータ) (2026-05-07T16:20:13Z) - Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL [6.435733307123974]
GRPO(Group-relative RL Training)は、トレーニングプロンプト毎に少数の並列ロールアウトをサンプリングする。
グループ内の報酬を拡大して、軌道ごとの利点を計算する。
プロンプトのロールアウトが同じ報酬で終わるとき、群は報酬の分散をゼロとし、勾配を持たない。
論文 参考訳(メタデータ) (2026-05-07T07:41:09Z) - Prompt replay: speeding up grpo with on-policy reuse of high-signal prompts [0.0]
検証可能な報酬(RLVR)による強化学習は推論能力の拡大に重要な役割を担っているが、GRPOスタイルのトレーニングは高価なロールアウトと使い捨てのプロンプトで計算される無駄に支配されている。
本稿では,GRPO のオーバヘッドフリーなオンラインデータ選択手法である Prompt Replay を提案する。
論文 参考訳(メタデータ) (2026-03-22T11:39:51Z) - Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。