論文の概要: BPPO: Binary Prefix Policy Optimization for Efficient GRPO-Style Reasoning RL with Concise Responses
- arxiv url: http://arxiv.org/abs/2605.28028v1
- Date: Wed, 27 May 2026 06:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.804108
- Title: BPPO: Binary Prefix Policy Optimization for Efficient GRPO-Style Reasoning RL with Concise Responses
- Title(参考訳): BPPO: 簡潔応答を考慮した高効率GRPOスタイル推論RLのバイナリ事前修正最適化
- Authors: Qingfei Zhao, Huan Song, Shuyu Tian, Jiawei Shao, Xuelong Li,
- Abstract要約: GRPO型推論RLにおいて,全ての完了が等しく有用な更新信号を提供するか否かを検討する。
我々の勾配類似性分析は、同じプロンプト群において、同じクラス補完がしばしば非常に類似した更新方向を誘導することを示している。
本稿では,最短の修正完了と最短の修正完了をコンパクトな更新単位として利用するBPPO(Binary Prefix Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 48.550535291129584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) is widely used for training reasoning models, but updating all sampled completions in each group incurs substantial cost and can reinforce verbose reasoning trajectories. In this paper, we study whether all completions provide equally useful update signals in GRPO-style reasoning RL. Our gradient-similarity analysis shows that, within the same prompt group, same-class completions often induce highly similar update directions, whereas correct-incorrect pairs provide more distinct contrastive signals. Motivated by this observation, we propose Binary Prefix Policy Optimization (BPPO), which uses the shortest correct completion and the shortest incorrect completion as a compact update unit while preserving full-group advantage normalization. BPPO further improves efficiency with adaptive completion scheduling and prefix-focused optimization; by updating only response prefixes, it avoids reinforcing redundant suffixes and encourages more concise responses. Experiments on GSM8K, MATH, and Geo3K show that BPPO achieves up to 6.08x speedup over GRPO while maintaining competitive accuracy, and reduces mean response length by approximately 30-50% without modifying the reward with an explicit length penalty.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、推論モデルの訓練に広く用いられているが、各グループでサンプリングされた完了点の更新にはかなりのコストがかかり、冗長な推論軌跡を補強することができる。
本稿では、GRPO方式の推論RLにおいて、全ての完了が等しく有用な更新信号を提供するかどうかを考察する。
我々の勾配-類似性分析は、同じプロンプト群において、同じクラス補完がしばしば非常に類似した更新方向を誘導するのに対し、正しい不正確なペアはより明確なコントラスト信号を提供することを示している。
本研究の目的は,完全群優位正規化を保ちながら,最短の正解と最短の誤完了をコンパクトな更新単位として用い,BPPO(Binary Prefix Policy Optimization)を提案することである。
BPPOは適応的な完了スケジューリングとプレフィックス中心の最適化によって効率をさらに改善し、応答プレフィックスのみを更新することで、冗長な接尾辞の強化を回避し、より簡潔な応答を促進する。
GSM8K、MATH、Geo3Kの実験では、BPPOはGRPOよりも最大6.08倍のスピードアップを達成し、平均応答長を約30~50%削減する。
関連論文リスト
- Policy Improvement Reinforcement Learning [40.05196753615896]
Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力を改善するためのトレーニング後の中心的なパラダイムとなっている。
既存のメソッドは共通の盲点を共有している: 結果の更新によってモデルが実際に改善されたかどうかを検証することなく、即時のグループレベルまたはバッチレベルの統計に基づいてポリシーを最適化する。
我々は、政策改善のフィードバックが欠落していること、すなわち、中間段階の進捗を直接測定し、最適化する能力が欠けていることを論じる。
論文 参考訳(メタデータ) (2026-04-01T13:10:20Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [77.16976971950785]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOは絶対的なアドバンテージを低く保ち、勾配計算や更新に必要な数を大幅に削減する。
実験の結果、CPPOはGSM8Kで最大7.98タイム、Mathで3.48タイムで最大7.48タイム、オリジナルのGRPOと比較して精度を保っている。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。