論文の概要: Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction
- arxiv url: http://arxiv.org/abs/2410.01212v1
- Date: Wed, 2 Oct 2024 03:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:28:32.826029
- Title: Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction
- Title(参考訳): 絶対的状態制約政策最適化:高確率状態制約満足度
- Authors: Weiye Zhao, Feihan Li, Yifan Sun, Yujie Wang, Rui Chen, Tianhao Wei, Changliu Liu,
- Abstract要約: 既存の安全な強化学習(RL)手法は、期待する状態の制約を強制するか、強い仮定で厳格な状態の制約を強制するのみである。
本稿では,制約システムに対する高確率な状態満足度を保証するための,新しい汎用ポリシー探索アルゴリズムを提案する。
この結果から, ASCPO は, 連続制御タスクにおける状態制約処理において, 既存の手法よりも有意に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 20.00178731842195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enforcing state-wise safety constraints is critical for the application of reinforcement learning (RL) in real-world problems, such as autonomous driving and robot manipulation. However, existing safe RL methods only enforce state-wise constraints in expectation or enforce hard state-wise constraints with strong assumptions. The former does not exclude the probability of safety violations, while the latter is impractical. Our insight is that although it is intractable to guarantee hard state-wise constraints in a model-free setting, we can enforce state-wise safety with high probability while excluding strong assumptions. To accomplish the goal, we propose Absolute State-wise Constrained Policy Optimization (ASCPO), a novel general-purpose policy search algorithm that guarantees high-probability state-wise constraint satisfaction for stochastic systems. We demonstrate the effectiveness of our approach by training neural network policies for extensive robot locomotion tasks, where the agent must adhere to various state-wise safety constraints. Our results show that ASCPO significantly outperforms existing methods in handling state-wise constraints across challenging continuous control tasks, highlighting its potential for real-world applications.
- Abstract(参考訳): 自律運転やロボット操作といった実世界の問題に強化学習(RL)を適用するためには、国家の安全上の制約を強制することが重要である。
しかし、既存の安全なRL法は、期待する状態の制約を強制するか、強い仮定で厳格な状態の制約を強制するのみである。
前者は安全違反の可能性を除外しないが、後者は非現実的である。
我々の見解は、モデルのない環境では厳格な状態制限を保証することは困難であるが、強い仮定を除外しながら高い確率で状態制約を強制することができるということである。
この目的を達成するために,確率的システムに対する高確率な状態制約満足度を保証する新しい汎用ポリシー探索アルゴリズムであるAbsolute State-Strained Policy Optimization (ASCPO)を提案する。
我々は,エージェントが様々な国家的安全制約に従わなければならない広範囲なロボット移動タスクに対して,ニューラルネットワークポリシーをトレーニングすることにより,アプローチの有効性を実証する。
この結果から, ASCPO は実世界のアプリケーションにおいて, 課題のある連続制御タスクに対する状態制約処理において, 既存の手法よりも大幅に優れていたことが示唆された。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - State-wise Constrained Policy Optimization [10.815583111876892]
State-wise Constrained Policy Optimizationは、ステートワイド制約強化学習のための最初の汎用ポリシー探索アルゴリズムである。
SCPOは既存の手法を著しく上回り,高次元ロボット作業における状態制約を処理可能であることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:28:17Z) - State-wise Safe Reinforcement Learning: A Survey [5.826308050755618]
ステートワイド制約は、現実世界のアプリケーションにおいて最も一般的な制約の1つです。
本稿では,RLにおける状態制約に対処する既存のアプローチについて概説する。
論文 参考訳(メタデータ) (2023-02-06T21:11:29Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety [1.9573380763700712]
本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
論文 参考訳(メタデータ) (2021-05-22T10:40:58Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。