論文の概要: CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.20712v2
- Date: Tue, 30 Sep 2025 14:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.835506
- Title: CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
- Title(参考訳): CE-GPPO:強化学習における勾配保存クリッピングポリシ最適化によるエントロピーの調整
- Authors: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Yuntao Li, Wenping Hu, Fuzheng Zhang, Kun Gai, Guorui Zhou,
- Abstract要約: 政策エントロピーは、訓練中の探検と搾取のバランスを反映している。
既存の方法は、クリッピング機構により、低確率トークンから貴重な勾配信号を捨てる。
textbfGradient textbfPreserving textbfPolicy textbfOptimization を用いて textbfCoordinating textbfEntropy を提案する。
- 参考スコア(独自算出の注目度): 28.02073546326571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a powerful paradigm for optimizing large language models (LLMs) to handle complex reasoning tasks. A core challenge in this process lies in managing policy entropy, which reflects the balance between exploration and exploitation during training. Existing methods, such as proximal policy optimization (PPO) and its variants, discard valuable gradient signals from low-probability tokens due to the clipping mechanism. We systematically analyze the entropy dynamics and reveal that these clipped tokens play a critical yet overlooked role in regulating entropy evolution. We propose \textbf{C}oordinating \textbf{E}ntropy via \textbf{G}radient-\textbf{P}reserving \textbf{P}olicy \textbf{O}ptimization (CE-GPPO), a novel algorithm that reintroduces gradients from clipped tokens in native PPO in a gentle and bounded manner. By controlling the magnitude of gradients from tokens outside the clipping interval, CE-GPPO is able to achieve an exploration-exploitation trade-off. We provide theoretical justification and empirical evidence showing that CE-GPPO effectively mitigates entropy instability. Extensive experiments on mathematical reasoning benchmarks show that CE-GPPO consistently outperforms strong baselines across different model scales.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)を最適化して複雑な推論タスクを処理するための強力なパラダイムとなっている。
このプロセスの中核的な課題は、トレーニング中の探索と搾取のバランスを反映した、ポリシーのエントロピーの管理である。
近似ポリシー最適化(PPO)とその変種のような既存の手法は、クリッピング機構により、低確率トークンから貴重な勾配信号を捨てる。
我々はエントロピーの力学を体系的に解析し、これらのクリッピングトークンがエントロピーの進化を調節する重要な役割を担っていることを明らかにした。
本稿では,ネイティブPPOのクリッピングトークンから勾配を再導入する新アルゴリズムである「textbf{C}oordinating \textbf{E}ntropy via \textbf{G}radient-\textbf{P}reserving \textbf{P}olicy \textbf{O}ptimization (CE-GPPO)を提案する。
クリッピング間隔外のトークンから勾配の大きさを制御することにより、CE-GPPOは探索・探索トレードオフを達成することができる。
CE-GPPOがエントロピー不安定を効果的に緩和することを示す理論的正当化と実証的な証拠を提供する。
数学的推論のベンチマークに関する大規模な実験は、CE-GPPOが様々なモデルスケールで強いベースラインを一貫して上回っていることを示している。
関連論文リスト
- GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。