Fugu-MT 論文翻訳(概要): Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

論文の概要: Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

arxiv url: http://arxiv.org/abs/2506.05433v1
Date: Thu, 05 Jun 2025 09:13:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.160684
Title: Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward
Title（参考訳）: プレフィックスグルーパー:共有プレフィックスフォワードによる効率的なGRPOトレーニング
Authors: Zikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu,
Abstract要約: 提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
参考スコア（独自算出の注目度）: 10.640867597958863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Group Relative Policy Optimization (GRPO) enhances policy learning by computing gradients from relative comparisons among candidate outputs that share a common input prefix. Despite its effectiveness, GRPO introduces substantial computational overhead when processing long shared prefixes, which must be redundantly encoded for each group member. This inefficiency becomes a major scalability bottleneck in long-context learning scenarios. We propose Prefix Grouper, an efficient GRPO training algorithm that eliminates redundant prefix computation via a Shared-Prefix Forward strategy. In particular, by restructuring self-attention into two parts, our method enables the shared prefix to be encoded only once, while preserving full differentiability and compatibility with end-to-end training. We provide both theoretical and empirical evidence that Prefix Grouper is training-equivalent to standard GRPO: it yields identical forward outputs and backward gradients, ensuring that the optimization dynamics and final policy performance remain unchanged. Empirically, our experiments confirm that Prefix Grouper achieves consistent results while significantly reducing the computational cost of training, particularly in long-prefix scenarios. The proposed method is fully plug-and-play: it is compatible with existing GRPO-based architectures and can be seamlessly integrated into current training pipelines as a drop-in replacement, requiring no structural modifications and only minimal changes to input construction and attention computation. Prefix Grouper enables the use of larger group sizes under the same computational budget, thereby improving the scalability of GRPO to more complex tasks and larger models. Code is now available at https://github.com/johncaged/PrefixGrouper
Abstract（参考訳）: グループ相対政策最適化(GRPO)は、共通入力プレフィックスを共有する候補出力の相対比較から、勾配計算によるポリシー学習を強化する。その有効性にもかかわらず、GRPOは、グループメンバーごとに冗長に符号化されなければならない長い共有プレフィックスを処理する際に、かなりの計算オーバーヘッドを導入する。この非効率性は、長期のコンテキスト学習シナリオにおいて、大きなスケーラビリティのボトルネックとなる。そこで我々は,共有-修正フォワード戦略による冗長なプレフィックス計算を除去する,効率的なGRPO学習アルゴリズムであるPrefix Grouperを提案する。特に,自己注意を2つの部分に再構成することで,共通接頭辞を1回だけエンコードできると同時に,完全な差別性とエンドツーエンドトレーニングとの整合性を保っている。我々は、Prefix Grouperが標準GRPOと等価であるという理論的および実証的な証拠の両方を提供する。実験により,特に長期修正シナリオにおいて,Prefix Grouperがトレーニングの計算コストを大幅に削減し,一貫した結果が得られることを確認した。提案手法は完全にプラグアンドプレイであり,既存のGRPOアーキテクチャと互換性があり,従来のトレーニングパイプラインとシームレスに統合できる。 Prefix Grouperは、同じ計算予算の下でより大きなグループサイズを使用することを可能にし、より複雑なタスクやより大きなモデルにGRPOのスケーラビリティを向上する。コードはhttps://github.com/johncaged/PrefixGrouperで入手できる。

関連論文リスト

Group Sequence Policy Optimization [55.40088895148603]
Group Sequence Policy Optimization (GSPO) は、安定的で効率的でパフォーマンスの高い強化学習アルゴリズムである。 GSPOは、シーケンスの確率に基づいて重要度を定義し、シーケンスレベルのクリッピング、報酬、最適化を行う。
論文参考訳（メタデータ） (2025-07-24T03:50:32Z)
Infinite Sampling: Efficient and Stable Grouped RL Training for Large Language Models [9.805174094639785]
グループベース強化学習アルゴリズムは,人間のフィードバックによる大規模言語モデル(LLM)の微調整に有効であることが証明されている。プロンプト毎に複数のレスポンスを生成し、保存すると、かなりのメモリオーバーヘッドが発生する。 Infinite Samplingは、GPUメモリ使用量からグループサイズを分離することで、効率よく安定したGRPOトレーニングを可能にするフレームワークである。
論文参考訳（メタデータ） (2025-06-28T16:52:29Z)
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文参考訳（メタデータ） (2025-05-12T13:09:49Z)
CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。 CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文参考訳（メタデータ） (2025-03-28T11:30:05Z)
Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization [4.158255103170876]
GFlowNetsは、与えられた報酬関数に比例したオブジェクトのサンプルを学習する生成モデルのファミリーである。近年の研究では,GFlowNetトレーニングとエントロピー規則化強化学習問題との密接な関係が示されている。本稿では,エントロピー規則化マルコフ決定プロセスにおいて,値関数を直接逐次的に適用する,シンプルな後方ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-20T19:12:14Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文参考訳（メタデータ） (2024-02-06T15:45:27Z)
BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文参考訳（メタデータ） (2023-06-26T20:41:36Z)
Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文参考訳（メタデータ） (2022-05-26T12:51:32Z)
Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR Prediction [19.08180531016811]
深層学習における適応の族にスパース群ラッソの正規化子を追加する新しいフレームワークを開発する。理論的に凸な設定では,収束保証が確立される。提案手法は, 極めて優れた性能, 高い競争性能を達成できる。
論文参考訳（メタデータ） (2021-07-30T05:33:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。