論文の概要: Multi-task curriculum learning in a complex, visual, hard-exploration
domain: Minecraft
- arxiv url: http://arxiv.org/abs/2106.14876v1
- Date: Mon, 28 Jun 2021 17:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 14:36:48.363835
- Title: Multi-task curriculum learning in a complex, visual, hard-exploration
domain: Minecraft
- Title(参考訳): 複雑で視覚的で難解な領域におけるマルチタスクカリキュラム学習:minecraft
- Authors: Ingmar Kanitscheider, Joost Huizinga, David Farhi, William Hebgen
Guss, Brandon Houghton, Raul Sampedro, Peter Zhokhov, Bowen Baker, Adrien
Ecoffet, Jie Tang, Oleg Klimov, Jeff Clune
- Abstract要約: 私たちは、複雑な視覚的な領域でカリキュラムの学習を探索し、多くの難しい探索課題を経験します。
学習の進歩は,効果的なカリキュラムを自動構築する上で,学習可能性の信頼性の高い尺度であることが判明した。
- 参考スコア(独自算出の注目度): 18.845438529816004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important challenge in reinforcement learning is training agents that can
solve a wide variety of tasks. If tasks depend on each other (e.g. needing to
learn to walk before learning to run), curriculum learning can speed up
learning by focusing on the next best task to learn. We explore curriculum
learning in a complex, visual domain with many hard exploration challenges:
Minecraft. We find that learning progress (defined as a change in success
probability of a task) is a reliable measure of learnability for automatically
constructing an effective curriculum. We introduce a learning-progress based
curriculum and test it on a complex reinforcement learning problem (called
"Simon Says") where an agent is instructed to obtain a desired goal item. Many
of the required skills depend on each other. Experiments demonstrate that: (1)
a within-episode exploration bonus for obtaining new items improves
performance, (2) dynamically adjusting this bonus across training such that it
only applies to items the agent cannot reliably obtain yet further increases
performance, (3) the learning-progress based curriculum elegantly follows the
learning curve of the agent, and (4) when the learning-progress based
curriculum is combined with the dynamic exploration bonus it learns much more
efficiently and obtains far higher performance than uniform baselines. These
results suggest that combining intra-episode and across-training exploration
bonuses with learning progress creates a promising method for automated
curriculum generation, which may substantially increase our ability to train
more capable, generally intelligent agents.
- Abstract(参考訳): 強化学習における重要な課題は、幅広いタスクを解決できるトレーニングエージェントである。
タスクが互いに依存している場合(例えば)
学習する前に歩くことを学ぶ必要があるため、カリキュラム学習は学習するべき最善のタスクに集中することで学習をスピードアップすることができる。
私たちは、複雑な視覚的な領域でカリキュラムを探索し、多くの困難な探索課題を経験します。
学習の進捗(タスクの成功確率の変化として定義される)は,効果的なカリキュラムを自動構築するための学習可能性の信頼性の高い尺度であることがわかった。
学習過程に基づくカリキュラムを導入し、複雑な強化学習問題("Simon Says"と呼ばれる)でテストし、エージェントに望ましい目標項目を得るように指示する。
必要なスキルの多くは互いに依存している。
Experiments demonstrate that: (1) a within-episode exploration bonus for obtaining new items improves performance, (2) dynamically adjusting this bonus across training such that it only applies to items the agent cannot reliably obtain yet further increases performance, (3) the learning-progress based curriculum elegantly follows the learning curve of the agent, and (4) when the learning-progress based curriculum is combined with the dynamic exploration bonus it learns much more efficiently and obtains far higher performance than uniform baselines.
以上の結果から,エポゾード内と学習過程における探索ボーナスの組み合わせは,より有能で汎用的なエージェントを訓練する能力を大幅に向上させる,自動カリキュラム生成の有望な方法である可能性が示唆された。
関連論文リスト
- Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Curriculum Learning with Hindsight Experience Replay for Sequential
Object Manipulation Tasks [1.370633147306388]
本稿では,カリキュラム学習とHER(Hindsight Experience Replay)を組み合わせて,逐次的なオブジェクト操作タスクを学習するアルゴリズムを提案する。
このアルゴリズムは、多くのオブジェクト操作タスクに固有のリカレント構造を利用し、元のシミュレーションで学習プロセス全体を各ソースタスクに調整することなく実装する。
論文 参考訳(メタデータ) (2020-08-21T08:59:28Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。