論文の概要: Safe Reinforcement Learning through Meta-learned Instincts
- arxiv url: http://arxiv.org/abs/2005.03233v1
- Date: Wed, 6 May 2020 17:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 04:56:50.427812
- Title: Safe Reinforcement Learning through Meta-learned Instincts
- Title(参考訳): メタ学習による安全強化学習
- Authors: Djordje Grbic and Sebastian Risi
- Abstract要約: 深層強化学習では、通常、活動空間にノイズを注入することで探索を行う。
メタラーニング・インスティクティカル・ネットワーク(MLIN)と呼ばれる新しいアプローチを導入する。
MLINは、潜在的に有害な状態を避けながら、エージェントが生涯にわたって安全に学習することを可能にする。
- 参考スコア(独自算出の注目度): 9.387749254963595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important goal in reinforcement learning is to create agents that can
quickly adapt to new goals while avoiding situations that might cause damage to
themselves or their environments. One way agents learn is through exploration
mechanisms, which are needed to discover new policies. However, in deep
reinforcement learning, exploration is normally done by injecting noise in the
action space. While performing well in many domains, this setup has the
inherent risk that the noisy actions performed by the agent lead to unsafe
states in the environment. Here we introduce a novel approach called
Meta-Learned Instinctual Networks (MLIN) that allows agents to safely learn
during their lifetime while avoiding potentially hazardous states. At the core
of the approach is a plastic network trained through reinforcement learning and
an evolved "instinctual" network, which does not change during the agent's
lifetime but can modulate the noisy output of the plastic network. We test our
idea on a simple 2D navigation task with no-go zones, in which the agent has to
learn to approach new targets during deployment. MLIN outperforms standard
meta-trained networks and allows agents to learn to navigate to new targets
without colliding with any of the no-go zones. These results suggest that
meta-learning augmented with an instinctual network is a promising new approach
for safe AI, which may enable progress in this area on a variety of different
domains.
- Abstract(参考訳): 強化学習の重要な目標は、自分自身や環境にダメージを与える可能性のある状況を避けながら、新しい目標に迅速に適応できるエージェントを作ることである。
エージェントが学ぶ方法の1つは、新しいポリシーを発見するのに必要な探索メカニズムである。
しかし、深層強化学習では、通常、行動空間にノイズを注入することで探索を行う。
多くのドメインでうまく機能する一方で、この設定はエージェントによる騒がしいアクションが環境において安全でない状態につながるという固有のリスクを持っています。
本稿では,メタ学習型本能ネットワーク(meta-learned instinctual networks, mlin)と呼ばれる新しいアプローチを紹介する。
このアプローチの核心は、強化学習と進化した「本能的」ネットワークを通じて訓練されたプラスチックネットワークであり、エージェントの寿命の間は変化せず、プラスチックネットワークのノイズ出力を調節することができる。
私たちは、エージェントがデプロイ中に新しいターゲットにアプローチすることを学ばなければならない、no-go zoneを備えた単純な2dナビゲーションタスクでアイデアをテストします。
MLINは標準的なメタトレーニングネットワークよりも優れており、エージェントはno-goゾーンのいずれかと衝突することなく、新しいターゲットへのナビゲートを学ぶことができる。
これらの結果から、直感的ネットワークによるメタ学習は、安全なAIのための有望な新しいアプローチであり、様々な分野におけるこの分野の進歩を可能にする可能性が示唆された。
関連論文リスト
- Walk the Random Walk: Learning to Discover and Reach Goals Without
Supervision [21.72567982148215]
本稿では,外部の報酬やドメイン知識を伴わずに,そのような目標条件付きエージェントを訓練するための新しい手法を提案する。
我々はランダムウォークを用いて、2つの状態間の類似性を予測する到達可能性ネットワークを訓練する。
この到達可能性ネットワークは、様々なバランスの取れた過去の観測を含むゴールメモリの構築に使用される。
すべてのコンポーネントは、エージェントが新しい目標を発見して学習するにつれて、トレーニングを通じて更新される。
論文 参考訳(メタデータ) (2022-06-23T14:29:36Z) - MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance [73.3242641337305]
最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
論文 参考訳(メタデータ) (2021-12-07T08:57:35Z) - Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning [28.808933152885874]
無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T14:40:48Z) - Safer Reinforcement Learning through Transferable Instinct Networks [6.09170287691728]
我々は,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。
我々の本能制御型RL(IR2L)アプローチでは、望ましくない状況を認識するために「本能的」ネットワークを訓練する。
オープンAI安全体育ドメインのIR2Lについて, 安全性違反の件数が著しく少ないことを実証する。
論文 参考訳(メタデータ) (2021-07-14T13:22:04Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Online Fast Adaptation and Knowledge Accumulation: a New Approach to
Continual Learning [74.07455280246212]
継続的な学習は、新しいタスクに適応しながら、以前のタスクを忘れずにタスクの流れから学ぶエージェントを研究する。
この新たなシナリオでは、現在の連続学習、メタ学習、メタ連続学習、および連続メタ学習技術が失敗することを示します。
本稿では,このシナリオの強力なベースラインとして,人気のあるMAMLアルゴリズムのオンライン拡張であるContinual-MAMLを提案する。
論文 参考訳(メタデータ) (2020-03-12T15:47:16Z) - InfoBot: Transfer and Exploration via the Information Bottleneck [105.28380750802019]
強化学習における中心的な課題は、報酬がわずかに分散されたタスクに対する効果的なポリシーを見つけることである。
我々は、事前の経験から意思決定状態について学ぶことを提案する。
この単純なメカニズムは、部分的に観察された状態であっても、決定状態を効果的に識別する。
論文 参考訳(メタデータ) (2019-01-30T15:33:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。