論文の概要: Planning to Explore via Self-Supervised World Models
- arxiv url: http://arxiv.org/abs/2005.05960v2
- Date: Tue, 30 Jun 2020 23:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:08:14.241277
- Title: Planning to Explore via Self-Supervised World Models
- Title(参考訳): 自己監督型世界モデルによる探索計画
- Authors: Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar
Hafner, Deepak Pathak
- Abstract要約: Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
- 参考スコア(独自算出の注目度): 120.31359262226758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning allows solving complex tasks, however, the learning
tends to be task-specific and the sample efficiency remains a challenge. We
present Plan2Explore, a self-supervised reinforcement learning agent that
tackles both these challenges through a new approach to self-supervised
exploration and fast adaptation to new tasks, which need not be known during
exploration. During exploration, unlike prior methods which retrospectively
compute the novelty of observations after the agent has already reached them,
our agent acts efficiently by leveraging planning to seek out expected future
novelty. After exploration, the agent quickly adapts to multiple downstream
tasks in a zero or a few-shot manner. We evaluate on challenging control tasks
from high-dimensional image inputs. Without any training supervision or
task-specific interaction, Plan2Explore outperforms prior self-supervised
exploration methods, and in fact, almost matches the performances oracle which
has access to rewards. Videos and code at
https://ramanans1.github.io/plan2explore/
- Abstract(参考訳): 強化学習は複雑なタスクを解くことができるが、学習はタスク固有であり、サンプル効率は依然として課題である。
plan2exploreという自己教師付き強化学習エージェントを,自己教師付き探索への新たなアプローチと,探索中に知る必要のない新しいタスクへの迅速な適応を通じて,これら2つの課題に取り組む。
調査中、エージェントが到達した後の観察の新規性を遡及的に計算する従来の方法とは異なり、我々のエージェントは予測される将来的な新規性を求める計画を活用することで効率的に行動する。
探索後、エージェントはゼロまたは数ショットの方法で複数の下流タスクに迅速に適応する。
我々は,高次元画像入力から挑戦的な制御タスクを評価する。
トレーニングの監督やタスク固有のインタラクションがなければ、plan2exploreは、事前の自己監督による探索方法よりも優れています。
ビデオとコード: https://ramanans1.github.io/plan2explore/
関連論文リスト
- Training on more Reachable Tasks for Generalisation in Reinforcement Learning [5.855552389030083]
マルチタスク強化学習では、エージェントは一定のタスクセットでトレーニングを行い、新しいタスクに一般化する必要がある。
近年の研究では、探索の増加がこの一般化を改善することが示されているが、その理由は不明である。
マルチタスク強化学習における到達可能性の概念を導入し、初期探索フェーズがエージェントが訓練する到達可能なタスクの数を増やすことを示す。
論文 参考訳(メタデータ) (2024-10-04T16:15:31Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - ACDER: Augmented Curiosity-Driven Experience Replay [16.755555854030412]
Augmented Curiosity-Driven Experience Replay (ACDER) という新しい手法を提案する。
ACDERは新しい目標指向の好奇心を駆使して、エージェントが新しいタスク関連状態をより意図的に追求するよう促す。
Reach、Push、Pick&Place、Multi-step Pushの4つの挑戦的なロボット操作タスクの実験を行った。
論文 参考訳(メタデータ) (2020-11-16T15:27:15Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。