論文の概要: Safe Deep Reinforcement Learning by Verifying Task-Level Properties
- arxiv url: http://arxiv.org/abs/2302.10030v1
- Date: Mon, 20 Feb 2023 15:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 15:07:00.892045
- Title: Safe Deep Reinforcement Learning by Verifying Task-Level Properties
- Title(参考訳): タスクレベル特性検証による安全な深層強化学習
- Authors: Enrico Marchesini, Luca Marzari, Alessandro Farinelli, Christopher
Amato
- Abstract要約: コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
- 参考スコア(独自算出の注目度): 84.64203221849648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cost functions are commonly employed in Safe Deep Reinforcement Learning
(DRL). However, the cost is typically encoded as an indicator function due to
the difficulty of quantifying the risk of policy decisions in the state space.
Such an encoding requires the agent to visit numerous unsafe states to learn a
cost-value function to drive the learning process toward safety. Hence,
increasing the number of unsafe interactions and decreasing sample efficiency.
In this paper, we investigate an alternative approach that uses domain
knowledge to quantify the risk in the proximity of such states by defining a
violation metric. This metric is computed by verifying task-level properties,
shaped as input-output conditions, and it is used as a penalty to bias the
policy away from unsafe states without learning an additional value function.
We investigate the benefits of using the violation metric in standard Safe DRL
benchmarks and robotic mapless navigation tasks. The navigation experiments
bridge the gap between Safe DRL and robotics, introducing a framework that
allows rapid testing on real robots. Our experiments show that policies trained
with the violation penalty achieve higher performance over Safe DRL baselines
and significantly reduce the number of visited unsafe states.
- Abstract(参考訳): コスト関数は一般的に Safe Deep Reinforcement Learning (DRL) で使用される。
しかし、そのコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
このようなエンコーディングでは、エージェントは多数の安全でない状態を訪れてコスト価値関数を学習し、学習プロセスを安全性に向かって進める必要がある。
したがって、安全でない相互作用の数を増やし、サンプル効率を低下させる。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
このメトリックは、入出力条件として形成されるタスクレベルの特性を検証することで計算され、付加価値関数を学習することなく、安全でない状態からポリシーをバイアスするペナルティとして使用される。
標準安全DRLベンチマークとロボットマップレスナビゲーションタスクにおいて,違反基準を用いることの利点について検討する。
ナビゲーション実験は、Safe DRLとロボティクスのギャップを埋め、本物のロボットの迅速なテストを可能にするフレームワークを導入する。
本実験により, 安全DRLベースラインよりも高い性能を達成し, 訪問不安全状態の数を大幅に削減できることが示唆された。
関連論文リスト
- Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning [0.0]
本稿では,RLの安全性を高めるために,異常状態列を利用した安全強化学習(RL)手法を提案する。
自動運転車を含む複数の安全クリティカルな環境の実験において、我々のソリューションアプローチはより安全なポリシーをうまく学習する。
論文 参考訳(メタデータ) (2024-07-29T10:30:07Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - ROSARL: Reward-Only Safe Reinforcement Learning [11.998722332188]
強化学習における重要な問題は、環境の中でタスクを安全に解決することを学ぶエージェントを設計することである。
一般的な解決策は、人間の専門家が報酬関数のペナルティを定義するか、安全でない状態に達する際に最小化されるコストを定義することである。
これは簡単ではない、なぜなら、ペナルティが小さすぎると、安全でない状態に達するエージェントにつながるかもしれないし、ペナルティが大きすぎると収束する時間が増加するからである。
論文 参考訳(メタデータ) (2023-05-31T08:33:23Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Safe Reinforcement Learning using Data-Driven Predictive Control [0.5459797813771499]
安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。
安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。
本手法は,ロボットナビゲーション問題において,最先端の安全RL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:10:40Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。