論文の概要: Learning with AMIGo: Adversarially Motivated Intrinsic Goals
- arxiv url: http://arxiv.org/abs/2006.12122v2
- Date: Tue, 23 Feb 2021 07:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:28:41.974854
- Title: Learning with AMIGo: Adversarially Motivated Intrinsic Goals
- Title(参考訳): AMIGoで学ぶ: 先天的な目標を逆転的に動機づける
- Authors: Andres Campero, Roberta Raileanu, Heinrich K\"uttler, Joshua B.
Tenenbaum, Tim Rockt\"aschel, Edward Grefenstette
- Abstract要約: AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
- 参考スコア(独自算出の注目度): 63.680207855344875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge for reinforcement learning (RL) consists of learning in
environments with sparse extrinsic rewards. In contrast to current RL methods,
humans are able to learn new skills with little or no reward by using various
forms of intrinsic motivation. We propose AMIGo, a novel agent incorporating --
as form of meta-learning -- a goal-generating teacher that proposes
Adversarially Motivated Intrinsic Goals to train a goal-conditioned "student"
policy in the absence of (or alongside) environment reward. Specifically,
through a simple but effective "constructively adversarial" objective, the
teacher learns to propose increasingly challenging -- yet achievable -- goals
that allow the student to learn general skills for acting in a new environment,
independent of the task to be solved. We show that our method generates a
natural curriculum of self-proposed goals which ultimately allows the agent to
solve challenging procedurally-generated tasks where other forms of intrinsic
motivation and state-of-the-art RL methods fail.
- Abstract(参考訳): 強化学習(RL)の重要な課題は、疎外報酬のある環境での学習である。
現在のRL法とは対照的に、人間は様々な種類の本質的なモチベーションを用いて、報酬をほとんど、あるいは全く与えない新しいスキルを学ぶことができる。
本稿では,「メタラーニング」の形式を取り入れた新しいエージェントAMIGoを提案する。これは,環境報酬の欠如(あるいは同伴)において,目標条件の「学生」政策を訓練するために,適応的動機づけ目標を提案する目標生成教師である。
具体的には、シンプルだが効果的な「構成的敵意」の目的を通じて、教師は、解決すべき課題とは無関係に、新しい環境で行動するための一般的なスキルを学ぶことができる、ますます挑戦的かつ達成可能な目標を提案することを学ぶ。
提案手法は,自己提供目標の自然なカリキュラムを生成し,最終的にエージェントが,他の形態の本質的動機づけや最先端のrlメソッドが失敗するような手続き的生成課題を解決できることを示す。
関連論文リスト
- Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning [28.808933152885874]
無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T14:40:48Z) - Intrinsically Motivated Goal-Conditioned Reinforcement Learning: a Short
Survey [21.311739361361717]
開発アプローチは、学習エージェントは自身の問題を解決するために生成、選択、学習しなければならないと主張する。
近年、発達的アプローチと深層強化学習(RL)手法の融合が見られ、発達的機械学習の新しい領域を形成している。
本稿では,深層rlと発達的アプローチの交点におけるこれらの手法の類型論,最近のアプローチのサーベイ,今後の展望について述べる。
論文 参考訳(メタデータ) (2020-12-17T18:51:40Z) - Efficient Robotic Object Search via HIEM: Hierarchical Policy Learning
with Intrinsic-Extrinsic Modeling [33.89793938441333]
本稿では,本質的・非本質的な報酬設定を伴う階層的・解釈可能なモデリングに基づく,オブジェクト探索タスクのための新しいポリシー学習パラダイムを提案する。
House3D環境下で行った実験は、我々のモデルで訓練されたロボットが、より最適かつ解釈可能な方法で物体探索タスクを実行できることを示す。
論文 参考訳(メタデータ) (2020-10-16T19:21:38Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Generating Automatic Curricula via Self-Supervised Active Domain
Randomization [11.389072560141388]
我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
論文 参考訳(メタデータ) (2020-02-18T22:45:29Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。