論文の概要: Train Less, Learn More: Adaptive Efficient Rollout Optimization for Group-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.14338v1
- Date: Sun, 15 Feb 2026 23:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.961377
- Title: Train Less, Learn More: Adaptive Efficient Rollout Optimization for Group-Based Reinforcement Learning
- Title(参考訳): グループベース強化学習のための適応的効率的なロールアウト最適化
- Authors: Zhi Zhang, Zhen Han, Costas Mavromatis, Qi Zhu, Yunyi Zhang, Sheng Guan, Dingmin Wang, Xiong Zhou, Shuai Wang, Soji Adeshina, Vassilis Ioannidis, Huzefa Rangwala,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて中心的な役割を果たす。
GRPO では、各クエリは LLM に、固定されたグループサイズ$N$のロールアウトのグループを生成するように促す。
グループ内のすべてのロールアウトが同じ結果を共有するとき、すべての正しいか不正確な場合、群正規化の利点はゼロとなる。
本稿では GRPO の強化である AERO (Adaptive Efficient Rollout Optimization) を導入する。
- 参考スコア(独自算出の注目度): 37.10958874118462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) plays a central role in large language model (LLM) post-training. Among existing approaches, Group Relative Policy Optimization (GRPO) is widely used, especially for RL with verifiable rewards (RLVR) fine-tuning. In GRPO, each query prompts the LLM to generate a group of rollouts with a fixed group size $N$. When all rollouts in a group share the same outcome, either all correct or all incorrect, the group-normalized advantages become zero, yielding no gradient signal and wasting fine-tuning compute. We introduce Adaptive Efficient Rollout Optimization (AERO), an enhancement of GRPO. AERO uses an adaptive rollout strategy, applies selective rejection to strategically prune rollouts, and maintains a Bayesian posterior to prevent zero-advantage dead zones. Across three model configurations (Qwen2.5-Math-1.5B, Qwen2.5-7B, and Qwen2.5-7B-Instruct), AERO improves compute efficiency without sacrificing performance. Under the same total rollout budget, AERO reduces total training compute by about 48% while shortening wall-clock time per step by about 45% on average. Despite the substantial reduction in compute, AERO matches or improves Pass@8 and Avg@8 over GRPO, demonstrating a practical, scalable, and compute-efficient strategy for RL-based LLM alignment.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて中心的な役割を果たす。
既存のアプローチの中で、グループ相対ポリシー最適化(GRPO)は、特に検証可能な報酬(RLVR)を微調整するRLに対して広く使われている。
GRPO では、各クエリは LLM に、固定されたグループサイズ$N$のロールアウトのグループを生成するように促す。
グループ内のすべてのロールアウトが同じ結果を共有する場合、すべて正しいか間違っているかは問わないが、グループ正規化の利点はゼロとなり、勾配信号が得られず、微調整の計算を無駄にする。
本稿では GRPO の強化である AERO (Adaptive Efficient Rollout Optimization) を導入する。
AEROは適応的なロールアウト戦略を採用し、戦略的にプーンロールアウトを選択的に拒絶し、ベイズの後部を維持してゼロアドバンテージデッドゾーンを防ぐ。
3つのモデル構成(Qwen2.5-Math-1.5B、Qwen2.5-7B、Qwen2.5-7B-Instruct)で、AEROは性能を犠牲にすることなく計算効率を向上させる。
同じ総ロールアウト予算の下では、AEROは総トレーニング計算を約48%削減し、ステップ毎のウォールタイム時間を平均で約45%短縮する。
計算の大幅な削減にもかかわらず、AEROはGRPOよりもPass@8とAvg@8をマッチングまたは改善し、RLベースのLLMアライメントのための実用的でスケーラブルで計算効率のよい戦略を示す。
関連論文リスト
- Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning [45.86058898829962]
Multi-Ad Distributionally Robust Optimization (GDRO)は、一様推論を超えて最適化第一のフレームワークである。
本稿では,EMA-debiased multiplicative-weight bandit samplerを用いて,周波数バイアスを伴わない集中的難易マージンと過度にハードなグループをターゲットとした2つの独立したGDROゲームと,グループ間のロールアウトをシャドウプライスコントローラで再配置し,固定平均予算下でのハードタスクの勾配分散低減を最大化するRollout-GDROを提案する。
Qを用いたDAPO 14.1kデータセット上でのフレームワークの検証
論文 参考訳(メタデータ) (2026-01-27T07:10:41Z) - Improving Sampling Efficiency in RLVR through Adaptive Rollout and Response Reuse [43.07257245849851]
本稿では, 適応ロールアウトと応答再利用という2つの新しい手法を導入する, サンプリング効率のよいRLVRアルゴリズムを提案する。
AR3POはGRPOを一貫して上回り、DAPOに匹敵する。
より大きな32Bモデルでは、AR3POは、ロールアウトコストを著しく低く保ちながら、同様のトレーニングステップでDAPOと同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-30T05:29:53Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [69.67914133280296]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,従来のGRPOアルゴリズムと同等の性能を示しながら,RLの微調整時間を23%から62%削減する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。