論文の概要: Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
- arxiv url: http://arxiv.org/abs/2604.02288v1
- Date: Thu, 02 Apr 2026 17:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.9676
- Title: Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing
- Title(参考訳): サンプルルーティングによるグループ相対・自己蒸留政策の統一化
- Authors: Gengsheng Li, Tianyu Yang, Junfeng Fang, Mingyang Song, Mao Zheng, Haiyun Guo, Dan Zhang, Jinqiao Wang, Tat-Seng Chua,
- Abstract要約: 自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
- 参考スコア(独自算出の注目度): 79.88256756334327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training large language models. While Group Relative Policy Optimization (GRPO) is widely adopted, its coarse credit assignment uniformly penalizes failed rollouts, lacking the token-level focus needed to efficiently address specific deviations. Self-Distillation Policy Optimization (SDPO) addresses this by providing denser, more targeted logit-level supervision that facilitates rapid early improvement, yet it frequently collapses during prolonged training. We trace this late-stage instability to two intrinsic flaws: self-distillation on already-correct samples introduces optimization ambiguity, and the self-teacher's signal reliability progressively degrades. To resolve these issues, we propose Sample-Routed Policy Optimization (SRPO), a unified on-policy framework that routes correct samples to GRPO's reward-aligned reinforcement and failed samples to SDPO's targeted logit-level correction. SRPO further incorporates an entropy-aware dynamic weighting mechanism to suppress high-entropy, unreliable distillation targets while emphasizing confident ones. Evaluated across five benchmarks and two model scales, SRPO achieves both the rapid early improvement of SDPO and the long-horizon stability of GRPO. It consistently surpasses the peak performance of both baselines, raising the five-benchmark average on Qwen3-8B by 3.4% over GRPO and 6.3% over SDPO, while simultaneously yielding moderate response lengths and lowering per-step compute cost by up to 17.2%.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの訓練後の標準パラダイムとなっている。
グループ相対政策最適化(GRPO)は広く採用されているが、その粗悪なクレジット割り当てはロールアウトを均一に罰し、特定の逸脱に効率的に対処するために必要なトークンレベルの焦点を欠いている。
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによって、迅速な早期改善を促進するが、長期トレーニング中にしばしば崩壊する。
我々は、この後期の不安定さを、2つの本質的な欠陥に遡る: 既に正しいサンプルに対する自己蒸留は、最適化の曖昧さを導入し、自己教師の信号信頼性は徐々に低下する。
これらの問題を解決するために,GRPO の報酬整合強化とサンプル失敗を SDPO の目標ロジットレベルの補正にルーティングする統合型オン政治フレームワークである Sample-Routed Policy Optimization (SRPO) を提案する。
SRPOはさらにエントロピーを意識した動的重み付け機構を導入し、高いエントロピー、信頼性の低い蒸留目標を抑えつつ、自信あるものを強調する。
5つのベンチマークと2つのモデルスケールで評価され、SRPOはSDPOの早期改善とGRPOの長期安定性の両方を達成する。
両ベースラインのピーク性能を一貫して上回り、Qwen3-8Bの5ベンチマーク平均はGRPOで3.4%、SDPOで6.3%上昇し、同時に適度な応答長とステップ当たりの計算コストを最大17.2%低下させた。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - PRPO: Aligning Process Reward with Outcome Reward in Policy Optimization [15.965340493880701]
我々は、結果の信頼性とプロセスレベルのガイダンスを、批判のないフレームワークで組み合わせたプロセス相対政策最適化(PRPO)を導入する。
PRPOは意味的手がかりに基づいて推論シーケンスを分割し、PRMスコアをトークンレベルの利点に正規化し、それらの分布を結果の利点と整合させる。
MATH500では、PRPOはQwen2.5-Math-1.5Bの精度を61.2%から64.4%に改善した。
論文 参考訳(メタデータ) (2026-01-12T04:04:43Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Slow-Fast Policy Optimization: Reposition-Before-Update for LLM Reasoning [45.51804571136028]
強化学習(RL)は、大規模言語モデル(LLM)における推論の強化の中心となっている。
Slow-Fast Policy Optimization (SFPO)は,各ステップを3段階に分解することで,これらの制限に対処する,シンプルかつ効率的なフレームワークである。
SFPOは安定性を継続的に改善し、ロールアウトを低減し、推論RLトレーニングの収束を加速する。
論文 参考訳(メタデータ) (2025-10-05T07:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。