論文の概要: Prompt replay: speeding up grpo with on-policy reuse of high-signal prompts
- arxiv url: http://arxiv.org/abs/2603.21177v1
- Date: Sun, 22 Mar 2026 11:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.27903
- Title: Prompt replay: speeding up grpo with on-policy reuse of high-signal prompts
- Title(参考訳): Promptのリプレイ:高信号プロンプトのオン・ポリティクス再利用によるGrepoの高速化
- Authors: Andrei Baroian, Rutger Berger,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は推論能力の拡大に重要な役割を担っているが、GRPOスタイルのトレーニングは高価なロールアウトと使い捨てのプロンプトで計算される無駄に支配されている。
本稿では,GRPO のオーバヘッドフリーなオンラインデータ選択手法である Prompt Replay を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) plays a crucial role in expanding the capacities of LLM reasoning, but GRPO-style training is dominated by expensive rollouts and wastes compute on unusable prompts. We propose Prompt Replay, an overhead-free online data selection method for GRPO that reuses prompts only (not trajectories), to preserve on-policy optimization. After each step, we insert prompts with medium difficulty into a buffer, and prioritize prompts closer to a pass rate of 0.5 (half answers correct, half wrong) to maximize the advantage, thus learning signal. Training batches are formed by mixing reused prompts with fresh samples, with cooldown steps and max reuse times controlling aggressiveness vs risk of overfitting. Across multiple model families (Llama-3.2- 3B, Qwen3-8B) and training datasets (Dolci, Polaris), evaluated using average accuracy on six standard math benchmarks, Prompt Replay reduces zero-variance prompts, increases mean absolute advantage and shows faster initial accuracy gains. Yet, it plateaus and converges with the baseline, as too aggressive configuration was used. The method is most efficient when the rollouts are the primary bottleneck and the dataset is difficult for the model. We additionally observe that Qwen2.5-Math can exhibit spurious-reward effects that invalidates ablations, raising a warning signal for using it as a sole testbed for GRPO method research.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習はLLM推論の能力拡大に重要な役割を担っているが、GRPOスタイルのトレーニングは高価なロールアウトと無駄なプロンプトで計算される廃棄物に支配されている。
本稿では,GRPOのオンラインデータ選択手法であるPrompt Replayを提案する。
各ステップの後にバッファに中程度の難易度を持つプロンプトを挿入し、その利点を最大化するために0.5(半分は正解、半分は誤り)のパスレートに近いプロンプトを優先する。
トレーニングバッチは、再利用されたプロンプトと新鮮なサンプルを混合して形成され、冷却ステップと、過度な適合のリスクに対する攻撃性を制御する最大再利用時間を最大化する。
複数のモデルファミリ(Llama-3.2-3B, Qwen3-8B)とトレーニングデータセット(Dolci, Polaris)をまたいで評価し、6つの標準数学ベンチマークの平均精度を用いて評価する。
しかし、攻撃的な構成が多すぎるため、ベースラインに階層化して収束する。
この方法は、ロールアウトが主要なボトルネックであり、データセットがモデルにとって難しい場合に最も効率的である。
また,Qwen2.5-Mathは,アブリゲーションを無効にし,GRPO法研究の唯一のテストベッドとして使用するための警告信号を上げることができる。
関連論文リスト
- HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning [78.12979615107564]
HeaPAは精度を継続的に改善し、少ない計算で目標性能に達する。
分析の結果、これらの上昇はフロンティアに焦点を当てたサンプリングとオン政治プールの成長によるものであることが示唆された。
論文 参考訳(メタデータ) (2026-01-30T01:31:17Z) - Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes [22.721425502443253]
我々はPrefixRLを導入し、そこでは、成功裏のトレースのプレフィックスを条件にし、それらを完了させるために、オンデマンドのRLを実行します。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より効率的なことを証明する。
論文 参考訳(メタデータ) (2026-01-26T18:57:00Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Act Only When It Pays: Efficient Reinforcement Learning for LLM Reasoning via Selective Rollouts [28.17839625646103]
ロールアウト前に非形式的なプロンプトをスキップすることで,計算オーバーヘッドのかなりの部分が回避可能であることを示す。
我々は,非形式的プロンプトを予測・スキップするオンライン軽量プリロールアウトフィルタリングアルゴリズムであるGRESOを提案する。
GRESOは, ロールアウト時に最大2.4倍, トレーニング時間全体で最大2.0倍の高速化を達成でき, 精度は低下しない。
論文 参考訳(メタデータ) (2025-06-02T19:03:00Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。