論文の概要: KFCPO: Kronecker-Factored Approximated Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.00880v1
- Date: Sun, 02 Nov 2025 10:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.978154
- Title: KFCPO: Kronecker-Factored Approximated Constrained Policy Optimization
- Title(参考訳): KFCPO: Kronecker-Factored Approximated Constrained Policy Optimization
- Authors: Joonyoung Lim, Younghwan Yoo,
- Abstract要約: KFCPOはセーフ強化学習(Safe Reinforcement Learning, セーフRL)アルゴリズムである。
OmniSafeを用いた安全体育館の実験では、KFCPOは環境全体の平均リターン率が10.3%から50.2%に達することが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose KFCPO, a novel Safe Reinforcement Learning (Safe RL) algorithm that combines scalable Kronecker-Factored Approximate Curvature (K-FAC) based second-order policy optimization with safety-aware gradient manipulation. KFCPO leverages K-FAC to perform efficient and stable natural gradient updates by approximating the Fisher Information Matrix (FIM) in a layerwise, closed form manner, avoiding iterative approximation overheads. To address the tradeoff between reward maximization and constraint satisfaction, we introduce a margin aware gradient manipulation mechanism that adaptively adjusts the influence of reward and cost gradients based on the agent's proximity to safety boundaries. This method blends gradients using a direction sensitive projection, eliminating harmful interference and avoiding abrupt changes caused by fixed hard thresholds. Additionally, a minibatch level KL rollback strategy is adopted to ensure trust region compliance and to prevent destabilizing policy shifts. Experiments on Safety Gymnasium using OmniSafe show that KFCPO achieves 10.3% to 50.2% higher average return across environments compared to the best baseline that respected the safety constraint, demonstrating superior balance of safety and performance.
- Abstract(参考訳): KFCPOは、スケーラブルなKronecker-Factored Approximate Curvature(K-FAC)に基づく2次ポリシー最適化と、安全性を考慮した勾配操作を組み合わせた、新しいセーフ強化学習(Safe RL)アルゴリズムを提案する。
KFCPOはK-FACを利用して、Fisher Information Matrix (FIM)を階層的に近似し、反復近似のオーバーヘッドを回避することにより、効率的で安定した自然勾配更新を行う。
報酬の最大化と制約満足度のトレードオフに対処するため,エージェントの安全性境界に近接して報酬とコスト勾配の影響を適応的に調整するマージン認識勾配調整機構を導入する。
この方法は、方向感受性投射を用いて勾配をブレンドし、有害な干渉を排除し、固定された硬度閾値による急激な変化を避ける。
さらに、信頼領域コンプライアンスを確保し、政策シフトの不安定化を防止するため、ミニバッチレベルのKLロールバック戦略が採用されている。
OmniSafeを用いた安全体育館の実験では、KFCPOは安全性の制約を尊重し、安全と性能のバランスが良好であるのに対して、環境全体の平均リターンが10.3%から50.2%高いことが示されている。
関連論文リスト
- GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation [25.552241659930445]
セーフ強化学習(Safe RL)の主な側面は、次のポリシーの制約条件を推定することである。
既存の推定方法は無限水平割引利得関数に依存している。
深部安全RLにおける有限水平非分散制約の第一推定法を提案する。
論文 参考訳(メタデータ) (2024-12-15T10:05:23Z) - Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
我々は,信頼領域が安全な政策のみを含むことを保証するために,政策空間を再設定する制約付きトラスト地域政策最適化(C-TRPO)を導入する。
実験により、C-TRPOは競合リターンを維持しながら制約違反を低減することが示された。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。