論文の概要: Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees
- arxiv url: http://arxiv.org/abs/2201.08355v1
- Date: Thu, 20 Jan 2022 18:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 15:00:38.653459
- Title: Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees
- Title(参考訳): sim-to-lab-to-real:シールドと一般化による安全強化学習
- Authors: Kai-Chieh Hsu, Allen Z. Ren, Duy Phuong Nguyen, Anirudha Majumdar,
Jaime F. Fisac
- Abstract要約: 安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
本稿では,現実のギャップを安全に埋めるために,Sim-to-Lab-to-Realを提案する。
- 参考スコア(独自算出の注目度): 7.6347172725540995
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety is a critical component of autonomous systems and remains a challenge
for learning-based policies to be utilized in the real world. In particular,
policies learned using reinforcement learning often fail to generalize to novel
environments due to unsafe behavior. In this paper, we propose
Sim-to-Lab-to-Real to safely close the reality gap. To improve safety, we apply
a dual policy setup where a performance policy is trained using the cumulative
task reward and a backup (safety) policy is trained by solving the reach-avoid
Bellman Equation based on Hamilton-Jacobi reachability analysis. In Sim-to-Lab
transfer, we apply a supervisory control scheme to shield unsafe actions during
exploration; in Lab-to-Real transfer, we leverage the Probably Approximately
Correct (PAC)-Bayes framework to provide lower bounds on the expected
performance and safety of policies in unseen environments. We empirically study
the proposed framework for ego-vision navigation in two types of indoor
environments including a photo-realistic one. We also demonstrate strong
generalization performance through hardware experiments in real indoor spaces
with a quadrupedal robot. See
https://sites.google.com/princeton.edu/sim-to-lab-to-real for supplementary
material.
- Abstract(参考訳): 安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用するための課題である。
特に強化学習で学んだ政策は、安全でない行動のために新しい環境に一般化できないことが多い。
本稿では,現実の空間を安全に閉じるためにsim-to-lab-to-realを提案する。
安全性を向上させるために,ハミルトン・ヤコビ到達可能性解析に基づく到達回避ベルマン方程式を解いて,累積タスク報酬を用いてパフォーマンスポリシーを訓練し,バックアップ(安全)ポリシーを訓練するデュアルポリシー設定を適用する。
sim-to-lab転送では、探索中の安全でない動作を保護するための監視制御スキームを適用し、実験室間転送では、おそらくほぼ正しい(pac)-bayesフレームワークを利用して、目に見えない環境でのポリシーの期待性能と安全性の限界を低くする。
本研究では,写真現実感を含む2種類の屋内環境におけるエゴビジョンナビゲーションの枠組みを実証的に検討した。
また,四足歩行ロボットを用いた実室内空間におけるハードウェア実験により,強力な一般化性能を示す。
補足資料はhttps://sites.google.com/princeton.edu/sim-to-lab-to-realを参照。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [12.660770759420286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文 参考訳(メタデータ) (2023-10-19T08:19:28Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-03T13:03:06Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。