論文の概要: Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse
- arxiv url: http://arxiv.org/abs/2509.25808v1
- Date: Tue, 30 Sep 2025 05:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.028577
- Title: Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse
- Title(参考訳): 適応ロールアウトと応答再利用によるRLVRのサンプリング効率の向上
- Authors: Yuheng Zhang, Wenlin Yao, Changlong Yu, Yao Liu, Qingyu Yin, Bing Yin, Hyokun Yun, Lihong Li,
- Abstract要約: 本稿では, 適応ロールアウトと応答再利用という2つの新しい手法を導入する, サンプリング効率のよいRLVRアルゴリズムを提案する。
AR3POはGRPOを一貫して上回り、DAPOに匹敵する。
より大きな32Bモデルでは、AR3POは、ロールアウトコストを著しく低く保ちながら、同様のトレーニングステップでDAPOと同等のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 43.07257245849851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved impressive reasoning performance, with reinforcement learning with verifiable rewards (RLVR) emerging as a standard paradigm for post-training. A representative algorithm, group relative policy optimization (GRPO) (Shao et al., 2024), computes advantages by normalizing outcome rewards within response groups, but suffers from a vanishing advantage issue when all responses in a group receive identical rewards. To address this issue, we propose Adaptive Rollout and Response Reuse Policy Optimization (AR3PO), a sampling efficient RLVR algorithm that introduces two novel techniques: adaptive rollout, which dynamically allocates more responses to difficult prompts while saving computation on easier ones, and response reuse, which leverages previously generated correct responses to provide useful training signals. We compare AR3PO with strong RLVR baselines on multiple representative benchmarks using two different families of base models. Across the 7B and 8B models, AR3PO consistently outperforms GRPO and matches or surpasses DAPO (Yu et al., 2025), reducing rollout cost by up to 4.2x. On the larger 32B model, AR3PO achieves comparable performance to DAPO at similar training steps while maintaining substantially lower rollout cost.
- Abstract(参考訳): 大規模言語モデル(LLM)は、後学習の標準パラダイムとして、検証可能な報酬(RLVR)を用いた強化学習によって、印象的な推論性能を達成した。
代表アルゴリズムであるグループ相対ポリシー最適化(GRPO) (Shao et al , 2024) は、応答群内の結果報酬を正規化することで利点を計算するが、グループ内の全ての応答が同じ報酬を受けると、その利点がなくなる。
この問題に対処するために,適応ロールアウトと応答再利用ポリシー最適化(AR3PO)を提案する。このアルゴリズムは,より簡単な計算を省きながら,困難なプロンプトに対して動的により多くの応答を割り当てる適応ロールアウトと,以前に生成された正しい応答を利用して,有用なトレーニング信号を提供する応答再利用という,2つの新しい手法を導入している。
我々はAR3POと強力なRLVRベースラインを2種類のベースモデルを用いて複数の代表ベンチマークで比較した。
7Bと8Bのモデル全体で、AR3POはGRPOを一貫して上回り、DAPO(Yu et al , 2025)を上回り、ロールアウトコストを最大4.2倍に削減する。
より大きな32Bモデルでは、AR3POは、ロールアウトコストを著しく低く保ちながら、同様のトレーニングステップでDAPOと同等のパフォーマンスを達成する。
関連論文リスト
- REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [9.950083479263293]
REINFORCE++は、グローバルな優位性正規化を使用しながら、批判モデルを削除する新しいアプローチである。
プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。
RLHFとロングチェーン・オブ・ソートの両方において優れた一般化を実現する。
論文 参考訳(メタデータ) (2025-01-04T02:08:06Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。