論文の概要: Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.05591v1
- Date: Fri, 05 Dec 2025 10:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.990093
- Title: Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
- Title(参考訳): 安定強化学習のためのソフトグローバル制約としてのエントロピー比クリッピング
- Authors: Zhenpeng Su, Leiyu Pan, Minxuan Lv, Tiehua Mei, Zijia Lin, Yuntao Li, Wenping Hu, Ruiming Tang, Kun Gai, Guorui Zhou,
- Abstract要約: 我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
- 参考スコア(独自算出の注目度): 49.92803982100042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model post-training relies on reinforcement learning to improve model capability and alignment quality. However, the off-policy training paradigm introduces distribution shift, which often pushes the policy beyond the trust region, leading to training instabilities manifested as fluctuations in policy entropy and unstable gradients. Although PPO-Clip mitigates this issue through importance clipping, it still overlooks the global distributional shift of actions. To address these challenges, we propose using the entropy ratio between the current and previous policies as a new global metric that effectively quantifies the relative change in policy exploration throughout updates. Building on this metric, we introduce an \textbf{Entropy Ratio Clipping} (ERC) mechanism that imposes bidirectional constraints on the entropy ratio. This stabilizes policy updates at the global distribution level and compensates for the inability of PPO-clip to regulate probability shifts of un-sampled actions. We integrate ERC into both DAPO and GPPO reinforcement learning algorithms. Experiments across multiple benchmarks show that ERC consistently improves performance.
- Abstract(参考訳): 大規模な言語モデルポストトレーニングは、モデル能力とアライメント品質を改善するために強化学習に依存している。
しかし、非政治的な訓練パラダイムは、しばしば信頼領域を超えて政策を推進し、政策エントロピーと不安定な勾配の変動として表される訓練不安定性をもたらす分散シフトを導入している。
PPO-Clipは、重要な切り抜きによってこの問題を緩和するが、それでも世界の行動の分布シフトを見落としている。
これらの課題に対処するため、我々は現在の政策と過去の政策のエントロピー比を、更新全体における政策探索の相対的変化を効果的に定量化する新しいグローバル指標として使用することを提案する。
この計量に基づいて、エントロピー比の双方向制約を課す textbf{Entropy Ratio Clipping} (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPO-clipの不備を補償する。
我々は,ERCをDAPOおよびGPPO強化学習アルゴリズムに統合する。
複数のベンチマークの実験では、ERCは一貫してパフォーマンスを改善している。
関連論文リスト
- GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Coordinate Ascent for Off-Policy RL with Global Convergence Guarantees [8.610425739792284]
RLにおける非政治政策最適化の領域を再考する。
一般的に使用されるアプローチの1つは、代理目的を最適化するために、政治外の政策勾配を活用することである。
このアプローチは、分散ミスマッチの問題に悩まされていることが示されている。
論文 参考訳(メタデータ) (2022-12-10T07:47:04Z) - Cautious Policy Programming: Exploiting KL Regularization in Monotonic
Policy Improvement for Reinforcement Learning [11.82492300303637]
本稿では,学習中の単調な政策改善を確実にする,新しい値ベース強化学習(RL)アルゴリズムを提案する。
提案アルゴリズムは,古典的操作問題と高次元アタリゲームの両方において,性能と安定性を両立させることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T01:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。