Fugu-MT 論文翻訳(概要): MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

論文の概要: MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.16929v1
Date: Sat, 14 Mar 2026 00:45:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.265646
Title: MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning
Title（参考訳）: MHPO:安定強化学習のための修正ハザード対応政策最適化
Authors: Hongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han,
Abstract要約: 我々は,堅牢で安定した強化学習のための新しいフレームワークであるModulated Hazard-Aware Policy Optimization (MHPO)を提案する。提案したMHPOは、重要度比を有界微分可能な領域にマッピングするLog-Fidelity Modulator (LFM)を導入している。危険を意識したペナルティで最適化景観を形作ることにより、提案したMHPOは非対称な政策シフトのきめ細かい規制を実現する。
参考スコア（独自算出の注目度）: 26.278809385466214
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Regulating the importance ratio is critical for the training stability of Group Relative Policy Optimization (GRPO) based frameworks. However, prevailing ratio control methods, such as hard clipping, suffer from non-differentiable boundaries and vanishing gradient regions, failing to maintain gradient fidelity. Furthermore, these methods lack a hazard-aware mechanism to adaptively suppress extreme deviations, leaving the optimization process vulnerable to abrupt policy shifts. To address these challenges, we propose Modulated Hazard-aware Policy Optimization (MHPO), a novel framework designed for robust and stable reinforcement learning. The proposed MHPO introduces a Log-Fidelity Modulator (LFM) to map unbounded importance ratios into a bounded, differentiable domain. This mechanism effectively prevents high-variance outlier tokens from destabilizing the loss landscape while ensuring global gradient stability. Complementarily, a Decoupled Hazard Penalty (DHP) integrates cumulative hazard functions from survival analysis to independently regulate positive and negative policy shifts. By shaping the optimization landscape with hazard-aware penalties, the proposed MHPO achieves fine-grained regulation of asymmetric policy shifts simultaneously mitigating mode collapse from over-expansion and preventing policy erosion from catastrophic contraction within a stabilized trust region. Extensive evaluations on diverse reasoning benchmarks across both text-based and vision-language tasks demonstrate that MHPO consistently outperforms existing methods, achieving superior performance while significantly enhancing training stability.
Abstract（参考訳）: グループ相対政策最適化(GRPO)ベースのフレームワークのトレーニング安定性において、重要度を規制することが重要である。しかし, 硬いクリッピングなどの一般的な比制御法は, 不分化境界や勾配領域の消失に悩まされ, 勾配の忠実さの維持に支障をきたす。さらに、これらの手法には過度の偏差を適応的に抑制するハザード認識機構が欠如しており、最適化プロセスは急激な政策シフトに弱いままである。これらの課題に対処するため、我々は、堅牢で安定した強化学習を目的とした新しいフレームワークであるModulated Hazard-Aware Policy Optimization (MHPO)を提案する。提案したMHPOは、非有界な重要度比を有界で微分可能な領域にマッピングするLog-Fidelity Modulator (LFM)を導入している。この機構は、大域的な勾配安定性を確保しつつ、高分散の外れ値トークンによる損失景観の不安定化を効果的に防止する。相補的に、DHP(Decoupled Hazard Penalty)は、生存分析から累積的ハザード機能を統合し、独自に正および負の政策シフトを規制する。リスク対応型ペナルティで最適化ランドスケープを形成することにより,非対称な政策シフトのきめ細かい規制を達成し,モード崩壊を過度な膨張から緩和し,安定化された信頼領域内での破滅的収縮による政策侵食を防止する。テキストベースおよび視覚言語タスクの多種多様な推論ベンチマークに対する広範囲な評価は、MHPOが既存の手法を一貫して上回り、訓練安定性を著しく向上させ、優れた性能を達成していることを示している。

論文の概要: MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

関連論文リスト