論文の概要: Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach
- arxiv url: http://arxiv.org/abs/2002.10126v1
- Date: Mon, 24 Feb 2020 09:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:31:33.281915
- Title: Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach
- Title(参考訳): 確率的到達性と安全仕様のための安全強化学習:リャプノフに基づくアプローチ
- Authors: Subin Huh, Insoon Yang
- Abstract要約: 安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging applications in robotics and autonomous systems, such as autonomous
driving and robotic surgery, often involve critical safety constraints that
must be satisfied even when information about system models is limited. In this
regard, we propose a model-free safety specification method that learns the
maximal probability of safe operation by carefully combining probabilistic
reachability analysis and safe reinforcement learning (RL). Our approach
constructs a Lyapunov function with respect to a safe policy to restrain each
policy improvement stage. As a result, it yields a sequence of safe policies
that determine the range of safe operation, called the safe set, which
monotonically expands and gradually converges. We also develop an efficient
safe exploration scheme that accelerates the process of identifying the safety
of unexamined states. Exploiting the Lyapunov shielding, our method regulates
the exploratory policy to avoid dangerous states with high confidence. To
handle high-dimensional systems, we further extend our approach to deep RL by
introducing a Lagrangian relaxation technique to establish a tractable
actor-critic algorithm. The empirical performance of our method is demonstrated
through continuous control benchmark problems, such as a reaching task on a
planar robot arm.
- Abstract(参考訳): 自律運転やロボット手術のようなロボット工学や自律システムにおける新たな応用は、システムモデルに関する情報が限られている場合でも満たさなければならない重要な安全上の制約を伴うことが多い。
本稿では、確率的到達可能性分析と安全強化学習(RL)を慎重に組み合わせ、安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
本手法は,それぞれの政策改善段階を抑制する安全な政策に関して,リアプノフ関数を構築する。
その結果、安全集合と呼ばれる安全な操作の範囲を決定する一連の安全なポリシーが得られ、単調に膨張し徐々に収束する。
また,未確認状態の安全性を識別するプロセスを高速化する効率的な安全な探索手法を開発した。
リアプノフ遮蔽を活用し, 危険状態を高い信頼度で回避するために探索政策を規制する。
高次元システムを扱うため,我々はラグランジュ緩和手法を導入して,より深いRLへのアプローチをさらに拡張し,トラクタクリティカルなアルゴリズムを確立する。
本手法の実証的な性能は,平面ロボットアームの到達タスクなど,連続制御ベンチマーク問題を通じて実証される。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - Safe Reinforcement Learning with Contrastive Risk Prediction [35.80144544954927]
本稿では,安全でない状態につながる状態-作用ペアの確率を予測するために,統計的コントラスト分類器を学習する安全RLのリスク防止訓練手法を提案する。
予測されたリスク確率に基づいて、リスク防止トラジェクトリを収集し、報酬関数をリスクペナルティで再形成して、安全なRLポリシーを導き出すことができる。
その結果,提案手法は最先端のモデルベース手法と同等の性能を示し,従来のモデルフリーなRL手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-10T18:54:38Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。