論文の概要: DCPO: Dynamic Clipping Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.02333v1
- Date: Tue, 02 Sep 2025 14:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.052031
- Title: DCPO: Dynamic Clipping Policy Optimization
- Title(参考訳): DCPO:動的クリッピングポリシ最適化
- Authors: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin,
- Abstract要約: トークン固有の事前確率に基づいてクリッピング境界を調整し,トークンレベルの探索を強化する動的クリッピングポリシー最適化(DCPO)を提案する。
DCPOは4つの異なるモデルに基づく4つのベンチマークで最先端のパフォーマンスを達成する。
これらの結果は,大規模言語モデルにおける強化学習において,より効率的に生成されたデータを活用するDCPOの有効性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 19.56559858821034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic Clipping Policy Optimization (DCPO), which introduces a dynamic clipping strategy that adaptively adjusts the clipping bounds based on token-specific prior probabilities to enhance token-level exploration, and a smooth advantage standardization technique that standardizes rewards across cumulative training steps to improve the response-level effective utilization of generated responses. DCPO achieved state-of-the-art performance on four benchmarks based on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24 benchmark, surpassing both DAPO (36.7/31.6) and GRPO (36.7/32.1) on the Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5) and DAPO (20.0/15.3). Furthermore, DCPO achieved an average 28% improvement in the nonzero advantage over GRPO in four models, doubled the training efficiency over DAPO, and significantly reduced the token clipping ratio by an order of magnitude compared to both GRPO and DAPO, while achieving superior performance. These results highlight DCPO's effectiveness in leveraging generated data more efficiently for reinforcement learning in large language models.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR)は、大規模言語モデルの推論能力を高めるための有望なフレームワークとして登場した。
しかし、GRPOのような既存のアプローチは、しばしばゼロ勾配に悩まされる。
この問題は、主にトークンレベルの確率比の固定クリッピング境界と同一報酬の標準化が原因であり、非効率な勾配更新と生成した応答の未利用につながる可能性がある。
本研究では,トークンレベルの探索を向上するために,トークン固有の事前確率に基づいてクリッピング境界を適応的に調整する動的クリッピング戦略と,累積的なトレーニングステップ間で報酬を標準化し,生成した応答の応答レベル有効利用を改善するスムーズな優位性標準化手法を提案する。
DCPOは4つの異なるモデルに基づく4つのベンチマークで最先端のパフォーマンスを達成した。
特に、Avg@1の46.7のデコード、Avg@32の38.8のAvg@32の32倍のサンプリングをAIME24ベンチマークで達成し、Qwen2.5-Math-7BモデルではDAPO (36.7/31.6)とGRPO (36.7/32.1)を上回った。
Qwen2.5-14Bに基づくAIME25ベンチマークでは、DCPOはGRPO (13.3/10.5) とDAPO (20.0/15.3) を上回る性能(23.3/19.0)を達成した。
さらに、DCPOはGRPOよりも平均28%向上し、DAPOよりもトレーニング効率を2倍にし、GRPOとDAPOと比較してトークンクリッピング比を桁違いに低減し、優れた性能を実現した。
これらの結果は,大規模言語モデルにおける強化学習において,より効率的に生成されたデータを活用するDCPOの有効性を浮き彫りにしている。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - AWPO: Enhancing Tool-Use of Large Language Models through Explicit Integration of Reasoning Rewards [60.2998874976509]
我々は,ツール利用能力を高めるために,明示的な推論報酬を統合するために,有利なポリシー最適化(AWPO)を提案する。
AWPOは分散認識ゲーティングと困難認識重み付けを導入し、推論信号から利点を適応的に変調する。
実験により、AWPOは標準的なツール使用ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-22T08:07:00Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization [73.16975077770765]
近年の強化学習の進歩は、きめ細かいトークンレベルの報酬モデルを利用することで、PPO(Pximal Policy Optimization)の性能を大幅に向上させることができることを示している。
直接選好最適化(DPO)のガイダンスとしてこのようなトークンレベルの報酬を活用することは困難である。
この研究は、PPOをトークンレベルのポリシー最適化問題列に分解し、トークンレベルの報酬ガイダンスでトークンレベルのPPOの問題をフレーム化する。
論文 参考訳(メタデータ) (2025-06-17T14:30:06Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - Towards Self-Improvement of Diffusion Models via Group Preference Optimization [10.6096255671291]
グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-05-16T10:04:57Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。