論文の概要: Learning to be Safe: Deep RL with a Safety Critic
- arxiv url: http://arxiv.org/abs/2010.14603v1
- Date: Tue, 27 Oct 2020 20:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:08:36.142307
- Title: Learning to be Safe: Deep RL with a Safety Critic
- Title(参考訳): 安全であることを学ぶ - 安全性を批判する深いRL
- Authors: Krishnan Srinivasan, Benjamin Eysenbach, Sehoon Ha, Jie Tan, Chelsea
Finn
- Abstract要約: 安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
- 参考スコア(独自算出の注目度): 72.00568333130391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is an essential component for deploying reinforcement learning (RL)
algorithms in real-world scenarios, and is critical during the learning process
itself. A natural first approach toward safe RL is to manually specify
constraints on the policy's behavior. However, just as learning has enabled
progress in large-scale development of AI systems, learning safety
specifications may also be necessary to ensure safety in messy open-world
environments where manual safety specifications cannot scale. Akin to how
humans learn incrementally starting in child-safe environments, we propose to
learn how to be safe in one set of tasks and environments, and then use that
learned intuition to constrain future behaviors when learning new, modified
tasks. We empirically study this form of safety-constrained transfer learning
in three challenging domains: simulated navigation, quadruped locomotion, and
dexterous in-hand manipulation. In comparison to standard deep RL techniques
and prior approaches to safe RL, we find that our method enables the learning
of new tasks and in new environments with both substantially fewer safety
incidents, such as falling or dropping an object, and faster, more stable
learning. This suggests a path forward not only for safer RL systems, but also
for more effective RL systems.
- Abstract(参考訳): 安全性は、実世界のシナリオに強化学習(RL)アルゴリズムをデプロイする上で不可欠な要素であり、学習プロセス自体において重要である。
safe rlへの自然な最初のアプローチは、ポリシーの動作に関する制約を手動で指定することだ。
しかし、学習がAIシステムの大規模開発を進展させるのと同じように、手動の安全仕様がスケールできない混乱したオープンな環境における安全性を確保するためには、学習安全仕様も必要かもしれない。
子どもの安全環境から人間が段階的に学ぶ方法と同様に、タスクと環境の1セットで安全である方法を学び、その学習した直感を使って、新しい修正されたタスクを学ぶ際の将来の行動を制約します。
シミュレーションナビゲーション,四足歩行,偶発的手操作という3つの課題領域において,このような安全性制約付き転送学習の形式を実証的に研究した。
標準の深度RL技術や従来の安全RL手法と比較して,本手法は,物体の落下や落下といった安全性を著しく低減し,より速く,より安定した学習が可能な新しいタスクや新しい環境における学習を可能にする。
これにより、より安全なrlシステムだけでなく、より効率的なrlシステムへの道筋が示唆される。
関連論文リスト
- Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文 参考訳(メタデータ) (2023-03-24T20:29:17Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Adaptive Aggregation for Safety-Critical Control [3.1692938090731584]
安全クリティカル制御のためのアダプティブアグリゲーションフレームワークを提案する。
我々のアルゴリズムは、いくつかのベースラインと比較してデータ効率が良く、安全性違反が少ない。
論文 参考訳(メタデータ) (2023-02-07T16:53:33Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Safer Reinforcement Learning through Transferable Instinct Networks [6.09170287691728]
我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
論文 参考訳(メタデータ) (2021-07-14T13:22:04Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。