論文の概要: SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning
Agents
- arxiv url: http://arxiv.org/abs/2308.02594v2
- Date: Wed, 31 Jan 2024 23:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:25:11.066346
- Title: SMARLA: A Safety Monitoring Approach for Deep Reinforcement Learning
Agents
- Title(参考訳): smarla: 深層強化学習エージェントのための安全性監視手法
- Authors: Amirhossein Zolfagharian, Manel Abdellatif, Lionel C. Briand, and
Ramesh S
- Abstract要約: 本稿では,機械学習によるDRLエージェントの安全監視手法SMARLAを提案する。
SMARLAは、エージェントの内部や訓練データへのアクセスを必要としないため、ブラックボックスとして設計されている。
経験的分析によりSMARLAは偽陽性率の低い正確な違反予測を達成し、早期に安全違反を予測できることが明らかになった。
- 参考スコア(独自算出の注目度): 7.33319373357049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning algorithms (DRL) are increasingly being used in
safety-critical systems. Ensuring the safety of DRL agents is a critical
concern in such contexts. However, relying solely on testing is not sufficient
to ensure safety as it does not offer guarantees. Building safety monitors is
one solution to alleviate this challenge. This paper proposes SMARLA, a machine
learning-based safety monitoring approach designed for DRL agents. For
practical reasons, SMARLA is designed to be black-box (as it does not require
access to the internals or training data of the agent) and leverages state
abstraction to reduce the state space and thus facilitate the learning of
safety violation prediction models from agent's states. We validated SMARLA on
two well-known RL case studies. Empirical analysis reveals that SMARLA achieves
accurate violation prediction with a low false positive rate, and can predict
safety violations at an early stage, approximately halfway through the agent's
execution before violations occur.
- Abstract(参考訳): 深層強化学習アルゴリズム(drl)は安全性クリティカルなシステムでますます使われている。
DRLエージェントの安全性を確保することは、このような文脈において重要な関心事である。
しかし、安全性を保証するにはテストのみに頼るだけでは十分ではない。
安全モニターの構築は、この課題を軽減するためのソリューションのひとつだ。
本稿では,DRLエージェントを対象とした機械学習による安全監視手法SMARLAを提案する。
SMARLAはブラックボックス(エージェントの内部や訓練データへのアクセスを必要としないため)として設計されており、状態抽象化を活用して状態空間を減らし、エージェントの状態から安全違反予測モデルの学習を容易にする。
SMARLAを2つの有名なRL症例で検討した。
経験的分析により、SMARLAは偽陽性率の低い正確な違反予測を達成し、違反が起こる前にエージェントの実行のほぼ途中で、早期に安全違反を予測できることが明らかになった。
関連論文リスト
- Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning [7.349727826230864]
DRLエージェントのセーフガードを合成するためのモデルフリー安全な制御アルゴリズムである暗黙のセーフセットアルゴリズムを提案する。
提案アルゴリズムは,ブラックボックスの動的関数を問合せするだけで,安全指標(バリア証明書)とその後の安全制御則を合成する。
提案アルゴリズムを最先端のSafety Gymベンチマークで検証し、95% pm 9%$ cumulative rewardを得た上で安全性違反をゼロにする。
論文 参考訳(メタデータ) (2024-05-04T20:59:06Z) - OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research [3.0536277689386453]
SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
論文 参考訳(メタデータ) (2023-05-16T09:22:14Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文 参考訳(メタデータ) (2022-04-02T03:51:55Z) - DESTA: A Framework for Safe Reinforcement Learning with Markov Games of
Intervention [17.017957942831938]
強化学習(RL)における安全な学習に取り組むための現在のアプローチは、安全な探索とタスク遂行のトレードオフにつながる。
我々は、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを導入する。
我々のアプローチは、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを使用する。
論文 参考訳(メタデータ) (2021-10-27T14:35:00Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。