論文の概要: MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.16929v1
- Date: Sat, 14 Mar 2026 00:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.265646
- Title: MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning
- Title(参考訳): MHPO:安定強化学習のための修正ハザード対応政策最適化
- Authors: Hongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han,
- Abstract要約: 我々は,堅牢で安定した強化学習のための新しいフレームワークであるModulated Hazard-Aware Policy Optimization (MHPO)を提案する。
提案したMHPOは、重要度比を有界微分可能な領域にマッピングするLog-Fidelity Modulator (LFM)を導入している。
危険を意識したペナルティで最適化景観を形作ることにより、提案したMHPOは非対称な政策シフトのきめ細かい規制を実現する。
- 参考スコア(独自算出の注目度): 26.278809385466214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.
- Abstract(参考訳): グループ相対政策最適化(GRPO)ベースのフレームワークのトレーニング安定性において、重要度を規制することが重要である。
しかし, 硬いクリッピングなどの一般的な比制御法は, 不分化境界や勾配領域の消失に悩まされ, 勾配の忠実さの維持に支障をきたす。
さらに、これらの手法には過度の偏差を適応的に抑制するハザード認識機構が欠如しており、最適化プロセスは急激な政策シフトに弱いままである。
これらの課題に対処するため、我々は、堅牢で安定した強化学習を目的とした新しいフレームワークであるModulated Hazard-Aware Policy Optimization (MHPO)を提案する。
提案したMHPOは、非有界な重要度比を有界で微分可能な領域にマッピングするLog-Fidelity Modulator (LFM)を導入している。
この機構は、大域的な勾配安定性を確保しつつ、高分散の外れ値トークンによる損失景観の不安定化を効果的に防止する。
相補的に、DHP(Decoupled Hazard Penalty)は、生存分析から累積的ハザード機能を統合し、独自に正および負の政策シフトを規制する。
リスク対応型ペナルティで最適化ランドスケープを形成することにより,非対称な政策シフトのきめ細かい規制を達成し,モード崩壊を過度な膨張から緩和し,安定化された信頼領域内での破滅的収縮による政策侵食を防止する。
テキストベースおよび視覚言語タスクの多種多様な推論ベンチマークに対する広範囲な評価は、MHPOが既存の手法を一貫して上回り、訓練安定性を著しく向上させ、優れた性能を達成していることを示している。
関連論文リスト
- Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。
そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:40:12Z) - On the Plasticity and Stability for Post-Training Large Language Models [54.757672540381236]
塑性と安定性勾配の矛盾として根本原因を同定する。
本稿では,確率的衝突解決法(PCR)を提案する。
PCRはトレーニングの軌道を著しく滑らかにし、様々な推論タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T07:31:26Z) - QUATRO: Query-Adaptive Trust Region Policy Optimization for LLM Fine-tuning [30.908304728142983]
クエリ適応信頼度ポリシー最適化(QUATRO)を提案する。
QUATROは、原則化された最適化を通じて、信頼領域の制約を直接実施する。
様々な数学的推論のベンチマークで実証的な検証を行ったところ、QUITROは政策安定度の増加の下で安定な振舞いを示す。
論文 参考訳(メタデータ) (2026-02-04T14:51:04Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - KFCPO: Kronecker-Factored Approximated Constrained Policy Optimization [0.0]
KFCPOはセーフ強化学習(Safe Reinforcement Learning, セーフRL)アルゴリズムである。
OmniSafeを用いた安全体育館の実験では、KFCPOは環境全体の平均リターン率が10.3%から50.2%に達することが示されている。
論文 参考訳(メタデータ) (2025-11-02T10:33:57Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。