論文の概要: Faster Synchronous On-Policy RL via Straggler-Aware Group Sizing
- arxiv url: http://arxiv.org/abs/2606.02218v1
- Date: Mon, 01 Jun 2026 13:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.091696
- Title: Faster Synchronous On-Policy RL via Straggler-Aware Group Sizing
- Title(参考訳): Straggler-Aware Group サイズによる高速同期オンポリシィRL
- Authors: Azal Ahmad Khan, Ammar Ahmed, Zeshan Fayyaz, Sheng Di, Mingyi Hong, Ali Anwar,
- Abstract要約: Straggler-Aware Group Control (SAGC) は、観察されたロールアウト行動に基づいてトレーニンググループをオンラインで適応する動的グループサイズコントローラである。
我々は,SAGCがトラグラーの発生率を一定に低減し,ウォールクロック効率を向上し,競争力やトレーニング報酬を向上することを示した。
- 参考スコア(独自算出の注目度): 13.068250878684578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synchronous reinforcement learning methods such as Group Relative Policy Optimization (GRPO) provide stable and reproducible on-policy training, but they are highly vulnerable to stragglers, a single unusually long rollout can delay reward computation and parameter updates for the entire group. This problem becomes more severe as group size increases, creating a tension between the benefits of larger groups and the wall-clock cost of synchronization stalls. We propose Straggler-Aware Group Control (SAGC), a dynamic group-size controller that adapts the training group online based on observed rollout behavior. SAGC formulates group-size selection as an online constrained optimization problem, seeking to retain the benefits of larger groups while controlling the long-term rate of straggler events. Across synchronous GRPO and DAPO training, and on top of both vanilla and strong engineered baselines, SAGC consistently reduces straggler incidence and improves wall-clock efficiency while achieving competitive or better training reward. We further show that these gains transfer to final model quality: SAGC is competitive with or better than the strongest static group-size baseline on downstream reasoning benchmarks, and often produces shorter outputs without any explicit length penalty. These results position dynamic group control as a practical way to make synchronous on-policy RL more efficient and robust.
- Abstract(参考訳): グループ相対政策最適化(GRPO)のような同期強化学習手法は、安定かつ再現可能なオン・ポリティクス・トレーニングを提供するが、それらはストラグラーに非常に脆弱であり、単一の異常に長いロールアウトは、グループ全体の報酬計算とパラメータ更新を遅らせる可能性がある。
グループサイズが大きくなるにつれて、この問題はより深刻になり、大きなグループの利益と同期ストールのウォールクロックコストとの間に緊張が生じる。
そこで我々は,Straggler-Aware Group Control (SAGC)を提案する。
SAGCは、グループサイズの選択をオンライン制約付き最適化問題として定式化し、ストラグラーイベントの長期率を制御しながら、より大きなグループの利益を維持する。
同期GRPOとDAPOトレーニング全体と、バニラと強いエンジニアリングベースラインの両面において、SAGCはトラグラーの発生率を一貫して低減し、競争力やトレーニング報酬の向上を達成しつつ、ウォールクロック効率を向上させる。
SAGCは、下流の推論ベンチマークにおいて、最強の静的グループサイズベースラインと競合するか、より優れているかを示し、しばしば明示的な長さのペナルティを伴わずに、より短いアウトプットを生成する。
これらの結果から, 動的群制御は, 同期型オンラインRLをより効率的かつ堅牢にするための実用的な方法として位置づけられた。
関連論文リスト
- How Off-Policy Can GRPO Be? Mu-GRPO for Efficient LLM Reinforcement Learning [7.042913010118603]
GRPO方式のアルゴリズムは,従来想定されていたよりもはるかに大きなロールアウト安定化を許容できることを示す。
本稿では,少数の逐次生成最適化段階にトレーニングを編成するRLトレーニングフレームワークであるMu-GRPOを提案する。
5つの言語モデルと複数の数学推論ベンチマークで、 Mu-GRPO は標準GRPO の性能にマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T17:58:53Z) - Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning [53.42577591449649]
グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。
GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。
チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
論文 参考訳(メタデータ) (2026-05-12T03:20:24Z) - Tackling Length Inflation Without Trade-offs: Group Relative Reward Rescaling for Reinforcement Learning [74.5532558466687]
群 Relative Reward Rescaling (GR$3$) は、一般的な、連続かつ報酬に依存したゲーティング機構である。
GR$3$は、標準のGRPOに匹敵するトレーニングダイナミクスとダウンストリームのパフォーマンスを維持する。
それは長さのインフレーションを著しく軽減し、最先端の長周期正規化ベースラインを上回ります。
論文 参考訳(メタデータ) (2026-03-11T08:41:34Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - HeaPA: Difficulty-Aware Heap Sampling and On-Policy Query Augmentation for LLM Reinforcement Learning [78.12979615107564]
HeaPAは精度を継続的に改善し、少ない計算で目標性能に達する。
分析の結果、これらの上昇はフロンティアに焦点を当てたサンプリングとオン政治プールの成長によるものであることが示唆された。
論文 参考訳(メタデータ) (2026-01-30T01:31:17Z) - Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning [45.86058898829962]
Multi-Ad Distributionally Robust Optimization (GDRO)は、一様推論を超えて最適化第一のフレームワークである。
本稿では,EMA-debiased multiplicative-weight bandit samplerを用いて,周波数バイアスを伴わない集中的難易マージンと過度にハードなグループをターゲットとした2つの独立したGDROゲームと,グループ間のロールアウトをシャドウプライスコントローラで再配置し,固定平均予算下でのハードタスクの勾配分散低減を最大化するRollout-GDROを提案する。
Qを用いたDAPO 14.1kデータセット上でのフレームワークの検証
論文 参考訳(メタデータ) (2026-01-27T07:10:41Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。