論文の概要: Safer Reinforcement Learning through Transferable Instinct Networks
- arxiv url: http://arxiv.org/abs/2107.06686v1
- Date: Wed, 14 Jul 2021 13:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 19:36:34.784475
- Title: Safer Reinforcement Learning through Transferable Instinct Networks
- Title(参考訳): 伝達可能な直交ネットワークによるサファー強化学習
- Authors: Djordje Grbic and Sebastian Risi
- Abstract要約: 我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Random exploration is one of the main mechanisms through which reinforcement
learning (RL) finds well-performing policies. However, it can lead to
undesirable or catastrophic outcomes when learning online in safety-critical
environments. In fact, safe learning is one of the major obstacles towards
real-world agents that can learn during deployment. One way of ensuring that
agents respect hard limitations is to explicitly configure boundaries in which
they can operate. While this might work in some cases, we do not always have
clear a-priori information which states and actions can lead dangerously close
to hazardous states. Here, we present an approach where an additional policy
can override the main policy and offer a safer alternative action. In our
instinct-regulated RL (IR^2L) approach, an "instinctual" network is trained to
recognize undesirable situations, while guarding the learning policy against
entering them. The instinct network is pre-trained on a single task where it is
safe to make mistakes, and transferred to environments in which learning a new
task safely is critical. We demonstrate IR^2L in the OpenAI Safety gym domain,
in which it receives a significantly lower number of safety violations during
training than a baseline RL approach while reaching similar task performance.
- Abstract(参考訳): ランダム探索は、強化学習(RL)が優れた政策を見出す主要なメカニズムの1つである。
しかし、安全クリティカルな環境でオンラインで学ぶと、望ましくない、または破滅的な結果をもたらす可能性がある。
実際、安全な学習は、デプロイ中に学習できる現実世界のエージェントに対する大きな障害の1つです。
エージェントが厳しい制限を尊重することを保証する1つの方法は、運用可能なバウンダリを明示的に設定することである。
場合によってはこれはうまくいくかも知れませんが、状態やアクションが危険な状態に危険に近づける可能性のある、明確なaプライオリ情報を持っているとは限らないのです。
ここでは,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
instinct-regulated rl (ir^2l) アプローチでは,学習方針を守りながら,望ましくない状況を認識する「本能的」ネットワークを訓練する。
instinctネットワークは、ミスを犯しても安全である1つのタスクで事前トレーニングされ、新しいタスクを安全に学習する環境に移行することが重要です。
オープンAIセーフティ体育館におけるIR^2Lは,ベースラインRLアプローチよりもトレーニング中の安全性違反が有意に少ないが,課題性能は類似している。
関連論文リスト
- Reinforcement Learning by Guided Safe Exploration [11.14908712905592]
エージェント(ガイド)が報酬信号なしで安全に探索することを学習する,制約付き報酬のない設定について考察する。
このエージェントは制御された環境で訓練され、安全でない相互作用を可能にし、安全信号を提供する。
また,学生が信頼できない間に対象方針を定式化し,ガイドの影響を徐々に排除する。
論文 参考訳(メタデータ) (2023-07-26T17:26:21Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - DESTA: A Framework for Safe Reinforcement Learning with Markov Games of
Intervention [17.017957942831938]
強化学習(RL)における安全な学習に取り組むための現在のアプローチは、安全な探索とタスク遂行のトレードオフにつながる。
我々は、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを導入する。
我々のアプローチは、DESTA(Distributive Exploration Safety Training Algorithm)と呼ばれる安全なRLのための新しい2プレイヤーフレームワークを使用する。
論文 参考訳(メタデータ) (2021-10-27T14:35:00Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。