論文の概要: Safe Reinforcement Learning via Shielding for POMDPs
- arxiv url: http://arxiv.org/abs/2204.00755v1
- Date: Sat, 2 Apr 2022 03:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 10:04:23.220141
- Title: Safe Reinforcement Learning via Shielding for POMDPs
- Title(参考訳): POMDPのシールドによる安全強化学習
- Authors: Steven Carr, Nils Jansen, Sebastian Junges and Ufuk Topcu
- Abstract要約: 安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
- 参考スコア(独自算出の注目度): 29.058332307331785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) in safety-critical environments requires an agent
to avoid decisions with catastrophic consequences. Various approaches
addressing the safety of RL exist to mitigate this problem. In particular,
so-called shields provide formal safety guarantees on the behavior of RL agents
based on (partial) models of the agents' environment. Yet, the state-of-the-art
generally assumes perfect sensing capabilities of the agents, which is
unrealistic in real-life applications. The standard models to capture scenarios
with limited sensing are partially observable Markov decision processes
(POMDPs). Safe RL for these models remains an open problem so far. We propose
and thoroughly evaluate a tight integration of formally-verified shields for
POMDPs with state-of-the-art deep RL algorithms and create an efficacious
method that safely learns policies under partial observability. We empirically
demonstrate that an RL agent using a shield, beyond being safe, converges to
higher values of expected reward. Moreover, shielded agents need an order of
magnitude fewer training episodes than unshielded agents, especially in
challenging sparse-reward settings.
- Abstract(参考訳): 安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
この問題を解決するために、rlの安全性に取り組む様々なアプローチが存在する。
特に、いわゆるシールドは、エージェントの環境の(部分的な)モデルに基づくRLエージェントの挙動に関する正式な安全保証を提供する。
しかし、最先端技術は一般的にエージェントの完全な感知能力を前提としています。
限られたセンシングでシナリオをキャプチャする標準的なモデルは、部分的に観測可能なマルコフ決定プロセス(POMDP)である。
これらのモデルの安全RLは、今のところ未解決の問題である。
本稿では,PMDPと最先端の深層RLアルゴリズムとの密接な統合と,部分可観測性の下でポリシーを安全に学習する効率的な手法を提案する。
我々は, シールドを用いたrlエージェントが, 安全性に留まらず, 期待報酬の高い値に収束することを示す。
さらに、遮蔽エージェントは、非遮蔽エージェントよりも非常に少ない訓練エピソードを必要とする。
関連論文リスト
- A novel agent with formal goal-reaching guarantees: an experimental study with a mobile robot [0.0]
強化学習 (Reinforcement Learning, RL) は, ロボット工学における多くの課題に対して有効かつ便利であることが示されている。
この研究は、Crytic As Lyapunov Function(CALF)と呼ばれる新しい安全なモデルフリーRLエージェントを提示する。
論文 参考訳(メタデータ) (2024-09-23T10:04:28Z) - Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である
安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:00:21Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Constraint-Guided Reinforcement Learning: Augmenting the
Agent-Environment-Interaction [10.203602318836445]
強化学習(RL)エージェントは、限られたフィードバックから大きな観察とアクションスペースでタスクを解決することに成功しています。
本稿では,制約に基づく拡張モデルと深部RLの統合による信頼性エージェントのエンジニアリングについて論じる。
その結果、制約ガイダンスは信頼性の向上と安全な行動を提供するだけでなく、トレーニングを加速する。
論文 参考訳(メタデータ) (2021-04-24T10:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。