論文の概要: DCPO: Dynamic Clipping Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.02333v2
- Date: Mon, 08 Sep 2025 14:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.364418
- Title: DCPO: Dynamic Clipping Policy Optimization
- Title(参考訳): DCPO:動的クリッピングポリシ最適化
- Authors: Shihui Yang, Chengfeng Dou, Peidong Guo, Kai Lu, Qiang Ju, Fei Deng, Rihui Xin,
- Abstract要約: 強化学習のための動的クリッピングポリシー最適化(DCPO)を提案する。
DCPOはトークン固有の事前確率に基づいてクリッピング境界を調整し、トークンレベルの探索を強化する。
累積的なトレーニングステップ全体で報酬を標準化し、生成されたレスポンスのレスポンスレベルの効果的な利用を改善する。
- 参考スコア(独自算出の注目度): 19.56559858821034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has emerged as a promising framework for enhancing the reasoning capabilities of large language models. However, existing approaches such as GRPO often suffer from zero gradients. This problem arises primarily due to fixed clipping bounds for token-level probability ratios and the standardization of identical rewards, which can lead to ineffective gradient updates and underutilization of generated responses. In this work, we propose Dynamic Clipping Policy Optimization(DCPO), which introduces a dynamic clipping strategy that adaptively adjusts clipping bounds based on token-specific prior probabilities to enhance token-level exploration, and a smooth advantage standardization technique that standardizes rewards across cumulative training steps to improve the response-level effective utilization of generated responses. DCPO achieved state-of-the-art performance on four benchmarks based on four different models. In particular, DCPO achieved an Avg@1 of 46.7 under greedy decoding and an Avg@32 of 38.8 under 32 times sampling on the AIME24 benchmark, surpassing DAPO (36.7/31.6), GRPO (36.7/32.1) and GSPO (40.0/34.9) on the Qwen2.5-Math-7B model. On the AIME25 benchmark based on Qwen2.5-14B, DCPO achieves a performance of (23.3/19.0), surpassing GRPO (13.3/10.5), DAPO (20.0/15.3) and GSPO (16.7/9.9). Furthermore, DCPO achieved an average 28% improvement in the nonzero advantage over GRPO in four models, doubled the training efficiency over DAPO, and significantly reduced the token clipping ratio by an order of magnitude compared to both GRPO and DAPO, while achieving superior performance. These results highlight DCPO's effectiveness in leveraging generated data more efficiently for reinforcement learning in large language models.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR)は、大規模言語モデルの推論能力を高めるための有望なフレームワークとして登場した。
しかし、GRPOのような既存のアプローチは、しばしばゼロ勾配に悩まされる。
この問題は、主にトークンレベルの確率比の固定クリッピング境界と、同じ報酬の標準化によって生じる。
本研究では,トークン固有の事前確率に基づいてクリッピングバウンダリを適応的に調整しトークンレベルの探索を強化する動的クリッピング戦略と,累積学習ステップ間で報酬を標準化し,生成した応答の応答レベル有効利用を改善するスムーズな優位性標準化手法を提案する。
DCPOは4つの異なるモデルに基づく4つのベンチマークで最先端のパフォーマンスを達成した。
特に、Avg@1の46.7のデコード、Avg@32の38.8のAvg@32の32倍のサンプリングをAIME24ベンチマークで達成し、DAPO (36.7/31.6)、GRPO (36.7/32.1)、GSPO (40.0/34.9)をQwen2.5-Math-7Bモデルで上回った。
Qwen2.5-14Bに基づくAIME25のベンチマークでは、DCPOはGRPO (13.3/10.5)、DAPO (20.0/15.3)、GSPO (16.7/9.9)を上回った(23.3/19.0)。
さらに、DCPOはGRPOよりも平均28%向上し、DAPOよりもトレーニング効率を2倍にし、GRPOとDAPOと比較してトークンクリッピング比を桁違いに低減し、優れた性能を実現した。
これらの結果は,大規模言語モデルにおける強化学習において,より効率的に生成されたデータを活用するDCPOの有効性を浮き彫りにしている。
関連論文リスト
- GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization [73.16975077770765]
近年の強化学習の進歩は、きめ細かいトークンレベルの報酬モデルを利用することで、PPO(Pximal Policy Optimization)の性能を大幅に向上させることができることを示している。
直接選好最適化(DPO)のガイダンスとしてこのようなトークンレベルの報酬を活用することは困難である。
この研究は、PPOをトークンレベルのポリシー最適化問題列に分解し、トークンレベルの報酬ガイダンスでトークンレベルのPPOの問題をフレーム化する。
論文 参考訳(メタデータ) (2025-06-17T14:30:06Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - Towards Self-Improvement of Diffusion Models via Group Preference Optimization [10.6096255671291]
グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-05-16T10:04:57Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。