論文の概要: Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward
- arxiv url: http://arxiv.org/abs/2506.05433v1
- Date: Thu, 05 Jun 2025 09:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.160684
- Title: Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward
- Title(参考訳): プレフィックスグルーパー:共有プレフィックスフォワードによる効率的なGRPOトレーニング
- Authors: Zikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu,
- Abstract要約: 提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。
自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。
我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 10.640867597958863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) enhances policy learning by computing gradients from relative comparisons among candidate outputs that share a common input prefix. Despite its effectiveness, GRPO introduces substantial computational overhead when processing long shared prefixes, which must be redundantly encoded for each group member. This inefficiency becomes a major scalability bottleneck in long-context learning scenarios. We propose Prefix Grouper, an efficient GRPO training algorithm that eliminates redundant prefix computation via a Shared-Prefix Forward strategy. In particular, by restructuring self-attention into two parts, our method enables the shared prefix to be encoded only once, while preserving full differentiability and compatibility with end-to-end training. We provide both theoretical and empirical evidence that Prefix Grouper is training-equivalent to standard GRPO: it yields identical forward outputs and backward gradients, ensuring that the optimization dynamics and final policy performance remain unchanged. Empirically, our experiments confirm that Prefix Grouper achieves consistent results while significantly reducing the computational cost of training, particularly in long-prefix scenarios. The proposed method is fully plug-and-play: it is compatible with existing GRPO-based architectures and can be seamlessly integrated into current training pipelines as a drop-in replacement, requiring no structural modifications and only minimal changes to input construction and attention computation. Prefix Grouper enables the use of larger group sizes under the same computational budget, thereby improving the scalability of GRPO to more complex tasks and larger models. Code is now available at https://github.com/johncaged/PrefixGrouper
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、共通入力プレフィックスを共有する候補出力の相対比較から、勾配計算によるポリシー学習を強化する。
その有効性にもかかわらず、GRPOは、グループメンバーごとに冗長に符号化されなければならない長い共有プレフィックスを処理する際に、かなりの計算オーバーヘッドを導入する。
この非効率性は、長期のコンテキスト学習シナリオにおいて、大きなスケーラビリティのボトルネックとなる。
そこで我々は,共有-修正フォワード戦略による冗長なプレフィックス計算を除去する,効率的なGRPO学習アルゴリズムであるPrefix Grouperを提案する。
特に,自己注意を2つの部分に再構成することで,共通接頭辞を1回だけエンコードできると同時に,完全な差別性とエンドツーエンドトレーニングとの整合性を保っている。
我々は、Prefix Grouperが標準GRPOと等価であるという理論的および実証的な証拠の両方を提供する。
実験により,特に長期修正シナリオにおいて,Prefix Grouperがトレーニングの計算コストを大幅に削減し,一貫した結果が得られることを確認した。
提案手法は完全にプラグアンドプレイであり,既存のGRPOアーキテクチャと互換性があり,従来のトレーニングパイプラインとシームレスに統合できる。
Prefix Grouperは、同じ計算予算の下でより大きなグループサイズを使用することを可能にし、より複雑なタスクやより大きなモデルにGRPOのスケーラビリティを向上する。
コードはhttps://github.com/johncaged/PrefixGrouperで入手できる。
関連論文リスト
- Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。
これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。
本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。
近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。
本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-20T19:12:14Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR Prediction [19.08180531016811]
深層学習における適応の族にスパース群ラッソの正規化子を追加する新しいフレームワークを開発する。
理論的に凸な設定では,収束保証が確立される。
提案手法は, 極めて優れた性能, 高い競争性能を達成できる。
論文 参考訳(メタデータ) (2021-07-30T05:33:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。