論文の概要: Probabilistic Guarantees for Safe Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2005.07073v2
- Date: Wed, 8 Jul 2020 09:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 05:16:26.626858
- Title: Probabilistic Guarantees for Safe Deep Reinforcement Learning
- Title(参考訳): 安全な深層強化学習のための確率的保証
- Authors: Edoardo Bacci and David Parker
- Abstract要約: 深層強化学習は多くの制御タスクにうまく適用されているが、安全上の懸念から、そのようなエージェントの安全クリティカルなシナリオへの応用は制限されている。
そこで我々は, 深層強化学習エージェントの安全性を評価するアルゴリズムMOSAICを提案する。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has been successfully applied to many control
tasks, but the application of such agents in safety-critical scenarios has been
limited due to safety concerns. Rigorous testing of these controllers is
challenging, particularly when they operate in probabilistic environments due
to, for example, hardware faults or noisy sensors. We propose MOSAIC, an
algorithm for measuring the safety of deep reinforcement learning agents in
stochastic settings. Our approach is based on the iterative construction of a
formal abstraction of a controller's execution in an environment, and leverages
probabilistic model checking of Markov decision processes to produce
probabilistic guarantees on safe behaviour over a finite time horizon. It
produces bounds on the probability of safe operation of the controller for
different initial configurations and identifies regions where correct behaviour
can be guaranteed. We implement and evaluate our approach on agents trained for
several benchmark control problems.
- Abstract(参考訳): 深層強化学習は多くの制御タスクにうまく適用されているが、安全上重要なシナリオにおけるこれらのエージェントの適用は安全性上の懸念から制限されている。
これらのコントローラーの厳密なテストは、特にハードウェアの故障や騒がしいセンサーのため、確率的な環境での運用では困難である。
確率的環境下での深部強化学習エージェントの安全性を測定するアルゴリズムMOSAICを提案する。
本手法は,環境におけるコントローラの実行の形式的抽象化を反復的に構築し,マルコフ決定過程の確率論的モデルチェックを活用し,有限時間軸上での安全な動作に関する確率論的保証を実現する。
異なる初期設定のためにコントローラの安全な操作の確率の境界を生成し、正しい振る舞いが保証される領域を識別する。
いくつかのベンチマーク制御問題で訓練されたエージェントに対するアプローチの実装と評価を行った。
関連論文リスト
- Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Safe Exploration Method for Reinforcement Learning under Existence of
Disturbance [1.1470070927586016]
我々は、障害の存在下での強化学習における安全な探索問題に対処する。
制御対象と外乱の部分的事前知識を用いた安全な探索手法を提案する。
逆振り子と4バー並列リンクロボットマニピュレータの数値シミュレーションにより,提案手法の有効性と有効性について述べる。
論文 参考訳(メタデータ) (2022-09-30T13:00:33Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Safe reinforcement learning for probabilistic reachability and safety
specifications: A Lyapunov-based approach [2.741266294612776]
安全運転の最大確率を学習するモデルフリー安全仕様法を提案する。
提案手法は, 各政策改善段階を抑制するための安全な政策に関して, リャプノフ関数を構築する。
安全集合と呼ばれる安全な操作範囲を決定する一連の安全なポリシーを導出する。
論文 参考訳(メタデータ) (2020-02-24T09:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。