論文の概要: Incentivizing Safer Actions in Policy Optimization for Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.09208v1
- Date: Thu, 11 Sep 2025 07:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.270101
- Title: Incentivizing Safer Actions in Policy Optimization for Constrained Reinforcement Learning
- Title(参考訳): 制約付き強化学習のための政策最適化におけるサファー行動の動機付け
- Authors: Somnath Hazra, Pallab Dasgupta, Soumyajit Dey,
- Abstract要約: 制約強化学習(Constrained Reinforcement Learning)は、事前定義された制約制約に固執しながら、リターンを最大化することを目的としている。
継続的なコントロール設定では、報酬と制約満足度のトレードオフは依然として大きな課題です。
我々は、報酬構造に加えて、適応的なインセンティブ機構を統合する新しいアプローチを導入し、制約境界内に留まる。
- 参考スコア(独自算出の注目度): 9.62939764063531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained Reinforcement Learning (RL) aims to maximize the return while adhering to predefined constraint limits, which represent domain-specific safety requirements. In continuous control settings, where learning agents govern system actions, balancing the trade-off between reward maximization and constraint satisfaction remains a significant challenge. Policy optimization methods often exhibit instability near constraint boundaries, resulting in suboptimal training performance. To address this issue, we introduce a novel approach that integrates an adaptive incentive mechanism in addition to the reward structure to stay within the constraint bound before approaching the constraint boundary. Building on this insight, we propose Incrementally Penalized Proximal Policy Optimization (IP3O), a practical algorithm that enforces a progressively increasing penalty to stabilize training dynamics. Through empirical evaluation on benchmark environments, we demonstrate the efficacy of IP3O compared to the performance of state-of-the-art Safe RL algorithms. Furthermore, we provide theoretical guarantees by deriving a bound on the worst-case error of the optimality achieved by our algorithm.
- Abstract(参考訳): 制約強化学習(Constrained Reinforcement Learning, RL)は、ドメイン固有の安全要件である制約制約に固執しながら、リターンを最大化することを目的としている。
学習エージェントがシステムアクションを統括する継続的制御設定では、報酬の最大化と制約満足度のトレードオフは依然として大きな課題である。
政策最適化手法は、しばしば制約境界付近で不安定性を示し、結果として準最適トレーニング性能をもたらす。
この問題に対処するために、制約境界に近づく前に制約境界内に留まる報酬構造に加えて、適応的なインセンティブ機構を統合する新しいアプローチを導入する。
この知見に基づいて、トレーニング力学を安定させるために、段階的に増大するペナルティを強制する実用的なアルゴリズムであるインクリメンタル・ペナルティ・プロキシ・ポリシー・オプティマイズ(IP3O)を提案する。
ベンチマーク環境での実証評価を通じて, 最先端のSafe RLアルゴリズムと比較してIP3Oの有効性を実証する。
さらに,アルゴリズムが達成した最適性の最悪のケースエラーを導出することにより,理論的保証を提供する。
関連論文リスト
- Rectified Robust Policy Optimization for Model-Uncertain Constrained Reinforcement Learning without Strong Duality [53.525547349715595]
我々はRectified Robust Policy Optimization (RRPO) と呼ばれる新しいプライマリのみのアルゴリズムを提案する。
RRPOは双対の定式化に頼ることなく、主問題に直接作用する。
我々は、最もよく知られた下界と一致する複雑性を持つ、ほぼ最適な実現可能なポリシーに収束することを示す。
論文 参考訳(メタデータ) (2025-08-24T16:59:38Z) - Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。
本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。
我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文 参考訳(メタデータ) (2024-12-11T22:00:07Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。