論文の概要: Generating Automatic Curricula via Self-Supervised Active Domain
Randomization
- arxiv url: http://arxiv.org/abs/2002.07911v2
- Date: Mon, 26 Oct 2020 18:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 18:57:19.524786
- Title: Generating Automatic Curricula via Self-Supervised Active Domain
Randomization
- Title(参考訳): 自己監督型アクティブドメインランダム化による自動キュリキュラ生成
- Authors: Sharath Chandra Raparthy, Bhairav Mehta, Florian Golemo, Liam Paull
- Abstract要約: 我々は、目標と環境のカリキュラムを共同で学習するために、セルフプレイフレームワークを拡張します。
本手法は, エージェントがより困難なタスクや環境変化から学習する, ゴールタスクの複合カリキュラムを生成する。
本結果から,各環境に設定された目標の難易度とともに,環境の難易度を両立させるカリキュラムが,テスト対象の目標指向タスクに実用的利益をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 11.389072560141388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-directed Reinforcement Learning (RL) traditionally considers an agent
interacting with an environment, prescribing a real-valued reward to an agent
proportional to the completion of some goal. Goal-directed RL has seen large
gains in sample efficiency, due to the ease of reusing or generating new
experience by proposing goals. One approach,self-play, allows an agent to
"play" against itself by alternatively setting and accomplishing goals,
creating a learned curriculum through which an agent can learn to accomplish
progressively more difficult goals. However, self-play has been limited to goal
curriculum learning or learning progressively harder goals within a single
environment. Recent work on robotic agents has shown that varying the
environment during training, for example with domain randomization, leads to
more robust transfer. As a result, we extend the self-play framework to jointly
learn a goal and environment curriculum, leading to an approach that learns the
most fruitful domain randomization strategy with self-play. Our method,
Self-Supervised Active Domain Randomization(SS-ADR), generates a coupled
goal-task curriculum, where agents learn through progressively more difficult
tasks and environment variations. By encouraging the agent to try tasks that
are just outside of its current capabilities, SS-ADR builds a domain
randomization curriculum that enables state-of-the-art results on
varioussim2real transfer tasks. Our results show that a curriculum of
co-evolving the environment difficulty together with the difficulty of goals
set in each environment provides practical benefits in the goal-directed tasks
tested.
- Abstract(参考訳): 目標指向強化学習(rl)は伝統的に環境と相互作用するエージェントを考慮し、ある目標の完了に比例するエージェントに対して実価値の報酬を処方する。
目標指向のrlは、再利用の容易さや、目標の提案による新たなエクスペリエンスの生成により、サンプル効率が大幅に向上している。
1つのアプローチ、セルフプレイ(self-play)は、エージェントが目標を設定して達成し、学習カリキュラムを作成し、エージェントが徐々に難しい目標を達成することを学べるようにすることで、エージェント自身に対して「プレイ」することができる。
しかし、セルフプレイは、カリキュラムの学習や、単一の環境における徐々に難しい目標の学習に限られている。
ロボットエージェントに関する最近の研究は、例えばドメインのランダム化など、トレーニング中の環境の変化がより堅牢な移動をもたらすことを示した。
その結果、自己プレイフレームワークを拡張して、ゴールと環境のカリキュラムを共同学習し、自己プレイで最も実りあるドメインランダム化戦略を学ぶアプローチへと導かれる。
提案手法は,ss-adr(self-supervised active domain randomization)により,エージェントが徐々に困難なタスクや環境変動を通じて学習するゴール・タスク・カリキュラムを生成する。
エージェントに現在の能力のすぐ外側にあるタスクを試すよう促すことで、SS-ADRはドメインランダム化カリキュラムを構築し、様々なシム2リアル転送タスクの最先端の結果を可能にする。
以上の結果から,各環境における目標の難易度とともに環境難易度を共進化させるカリキュラムが,目標指向課題の実用的効果をもたらすことが示唆された。
関連論文リスト
- Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - Automatic Goal Generation using Dynamical Distance Learning [5.797847756967884]
強化学習(RL)エージェントは環境と対話することで複雑な逐次意思決定タスクを学習することができる。
エージェントが複雑なタスクを解くために複数の目標を達成する必要があるマルチゴールRLの分野では、サンプリング効率を改善することは特に困難である。
本稿では,動的距離関数(DDF)を用いた自動ゴール生成手法を提案する。
論文 参考訳(メタデータ) (2021-11-07T16:23:56Z) - Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning [28.808933152885874]
無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T14:40:48Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。