論文の概要: State-wise Constrained Policy Optimization
- arxiv url: http://arxiv.org/abs/2306.12594v3
- Date: Mon, 17 Jun 2024 19:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:23:38.624265
- Title: State-wise Constrained Policy Optimization
- Title(参考訳): 国家規制政策最適化
- Authors: Weiye Zhao, Rui Chen, Yifan Sun, Tianhao Wei, Changliu Liu,
- Abstract要約: State-wise Constrained Policy Optimizationは、ステートワイド制約強化学習のための最初の汎用ポリシー探索アルゴリズムである。
SCPOは既存の手法を著しく上回り,高次元ロボット作業における状態制約を処理可能であることを示す。
- 参考スコア(独自算出の注目度): 10.815583111876892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) algorithms have shown tremendous success in simulation environments, but their application to real-world problems faces significant challenges, with safety being a major concern. In particular, enforcing state-wise constraints is essential for many challenging tasks such as autonomous driving and robot manipulation. However, existing safe RL algorithms under the framework of Constrained Markov Decision Process (CMDP) do not consider state-wise constraints. To address this gap, we propose State-wise Constrained Policy Optimization (SCPO), the first general-purpose policy search algorithm for state-wise constrained reinforcement learning. SCPO provides guarantees for state-wise constraint satisfaction in expectation. In particular, we introduce the framework of Maximum Markov Decision Process, and prove that the worst-case safety violation is bounded under SCPO. We demonstrate the effectiveness of our approach on training neural network policies for extensive robot locomotion tasks, where the agent must satisfy a variety of state-wise safety constraints. Our results show that SCPO significantly outperforms existing methods and can handle state-wise constraints in high-dimensional robotics tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)アルゴリズムはシミュレーション環境では非常に成功したが、実世界の問題への適用には大きな課題が伴い、安全性が大きな懸念事項となっている。
特に、自律運転やロボット操作など、多くの困難なタスクにおいて、国家的制約の実施が不可欠である。
しかし、CMDP(Constrained Markov Decision Process)の枠組みに基づく既存の安全なRLアルゴリズムは、状態制約を考慮していない。
このギャップに対処するため,国家制約付き強化学習のための汎用政策探索アルゴリズムである国家制約付き政策最適化(SCPO)を提案する。
SCPOは、期待する状態の制約満足度を保証する。
特に,最大マルコフ決定プロセスの枠組みを導入し,最悪の安全違反がSCPOに拘束されていることを証明した。
本稿では,ロボット移動タスクにおけるニューラルネットワークポリシーのトレーニングにおけるアプローチの有効性を実証する。
その結果、SCPOは既存の手法よりも優れており、高次元ロボティクスタスクにおける状態制約を処理できることが示唆された。
関連論文リスト
- Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction [20.00178731842195]
既存の安全な強化学習(RL)手法は、期待する状態の制約を強制するか、強い仮定で厳格な状態の制約を強制するのみである。
本稿では,制約システムに対する高確率な状態満足度を保証するための,新しい汎用ポリシー探索アルゴリズムを提案する。
この結果から, ASCPO は, 連続制御タスクにおける状態制約処理において, 既存の手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-02T03:43:33Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - State-wise Safe Reinforcement Learning: A Survey [5.826308050755618]
ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。
本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
論文 参考訳(メタデータ) (2023-02-06T21:11:29Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Constrained Model-Free Reinforcement Learning for Process Optimization [0.0]
強化学習(Reinforcement Learning, RL)は、非線形最適制御問題を扱うための制御手法である。
展示された約束にもかかわらず、RLは産業的な実践への顕著な翻訳をまだ見ていない。
確率の高い共同確率制約の満足度を保証できる「オークル」支援型制約付きQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T13:16:22Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。