論文の概要: DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.04474v1
- Date: Mon, 06 Oct 2025 04:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.675977
- Title: DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization
- Title(参考訳): DRPO: 疎結合リワードポリシ最適化による効率的な推論
- Authors: Gang Li, Yan Chen, Ming Lin, Tianbao Yang,
- Abstract要約: 本稿では,正しいロールアウトの時間に基づく学習信号を,不正なロールアウトから切り離す新しいフレームワークを提案する。
1.5Bモデルでは,単純な質問に対して1.1%の性能損失しか得られず,77%の長さ削減を実現している。
- 参考スコア(独自算出の注目度): 37.96314154235252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large reasoning models (LRMs) driven by reinforcement learning algorithms (e.g., GRPO) have achieved remarkable performance on challenging reasoning tasks. However, these models suffer from overthinking, generating unnecessarily long and redundant reasoning even for simple questions, which substantially increases computational cost and response latency. While existing methods incorporate length rewards to GRPO to promote concise reasoning, they incur significant performance degradation. We identify the root cause: when rewards for correct but long rollouts are penalized, GRPO's group-relative advantage function can assign them negative advantages, actively discouraging valid reasoning. To overcome this, we propose Decoupled Reward Policy Optimization (DRPO), a novel framework that decouples the length-based learning signal of correct rollouts from incorrect ones. DRPO ensures that reward signals for correct rollouts are normalized solely within the positive group, shielding them from interference by negative samples. The DRPO's objective is grounded in integrating an optimized positive data distribution, which maximizes length-based rewards under a KL regularization, into a discriminative objective. We derive a closed-form solution for this distribution, enabling efficient computation of the objective and its gradients using only on-policy data and importance weighting. Of independent interest, this formulation is general and can incorporate other preference rewards of positive data beyond length. Experiments on mathematical reasoning tasks demonstrate DRPO's significant superiority over six efficient reasoning baselines. Notably, with a 1.5B model, our method achieves 77\% length reduction with only 1.1\% performance loss on simple questions like GSM8k dataset, while the follow-up baseline sacrifices 4.3\% for 68\% length reduction.
- Abstract(参考訳): 強化学習アルゴリズム(GRPOなど)によって駆動される最近の大規模推論モデル(LRM)は、挑戦的推論タスクにおいて顕著な性能を達成している。
しかし、これらのモデルは、計算コストと応答遅延を大幅に増大させる単純な問題であっても、過度に長い冗長な推論を発生させ、過度な考えに苦しむ。
既存の手法では、GRPOに長さ報酬を組み込んで簡潔な推論を促進するが、性能は著しく低下する。
正しいが長いロールアウトに対する報酬が罰せられるとき、GRPO の群相対的優位関数は負の利点を割り当て、有効推論を積極的に妨げます。
これを解決するために,不正確なロールアウトの長周期学習信号を分離する新しいフレームワークであるDecoupled Reward Policy Optimization (DRPO)を提案する。
DRPOは正のロールアウトに対する報酬信号が正の群内でのみ正規化されることを保証し、負のサンプルによる干渉を防ぐ。
DRPOの目的は、KL正規化の下で長さに基づく報酬を最大化する最適化された正のデータ分布を識別目的に統合することにある。
この分布に対して閉形式解が導出され、オン政治データと重み付けのみを用いて目的とその勾配の効率的な計算が可能となる。
独立した利害関係において、この定式化は一般的であり、長さを超える正のデータの他の好みの報酬を組み込むことができる。
数学的推論タスクの実験は、6つの効率的な推論ベースラインよりもDRPOの顕著な優位性を示している。
特に,1.5Bモデルでは,GSM8kデータセットのような単純な質問に対して,77\%長の削減と1.1\%長の損失を達成し,続くベースラインでは4.3\%長の削減を犠牲にしている。
関連論文リスト
- Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization [26.462701299259248]
大規模推論モデル(LRM)は、長いチェーン・オブ・ソート(CoT)推論を通じて複雑なタスクに強い性能を示す。
長いアウトプットは計算コストを増大させ、過度に考え直し、推論の有効性と効率のバランスをとる上での課題を提起する。
本稿では, LRMの生成時間を削減するための効率的な手法について検討する。
論文 参考訳(メタデータ) (2025-08-13T20:00:09Z) - A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。
これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。
算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文 参考訳(メタデータ) (2025-08-04T00:58:56Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。