論文の概要: Discovering and Achieving Goals via World Models
- arxiv url: http://arxiv.org/abs/2110.09514v1
- Date: Mon, 18 Oct 2021 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 13:31:14.660056
- Title: Discovering and Achieving Goals via World Models
- Title(参考訳): 世界モデルによる目標の発見と達成
- Authors: Russell Mendonca, Oleh Rybkin, Kostas Daniilidis, Danijar Hafner,
Deepak Pathak
- Abstract要約: この問題に対する統一的なソリューションであるLatent Explorer Achiever (LEXA)を紹介する。
LEXAはイメージ入力から世界モデルを学び、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する。
教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。
- 参考スコア(独自算出の注目度): 61.95437238374288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can artificial agents learn to solve many diverse tasks in complex visual
environments in the absence of any supervision? We decompose this question into
two problems: discovering new goals and learning to reliably achieve them. We
introduce Latent Explorer Achiever (LEXA), a unified solution to these that
learns a world model from image inputs and uses it to train an explorer and an
achiever policy from imagined rollouts. Unlike prior methods that explore by
reaching previously visited states, the explorer plans to discover unseen
surprising states through foresight, which are then used as diverse targets for
the achiever to practice. After the unsupervised phase, LEXA solves tasks
specified as goal images zero-shot without any additional learning. LEXA
substantially outperforms previous approaches to unsupervised goal-reaching,
both on prior benchmarks and on a new challenging benchmark with a total of 40
test tasks spanning across four standard robotic manipulation and locomotion
domains. LEXA further achieves goals that require interacting with multiple
objects in sequence. Finally, to demonstrate the scalability and generality of
LEXA, we train a single general agent across four distinct environments. Code
and videos at https://orybkin.github.io/lexa/
- Abstract(参考訳): 人工エージェントは、何の監督もなく複雑な視覚環境において、様々なタスクをいかにして解決するか?
我々はこの問題を,新たな目標の発見と,それらを確実に達成するための学習という2つの問題に分解する。
我々は、画像入力から世界モデルを学習し、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する、これらに対する統一的なソリューションであるLatent Explorer Achiever(LEXA)を紹介する。
以前に訪れた州に到達して探索する以前の方法とは異なり、探検家は予見によって目に見えない驚くべき州を発見することを計画している。
教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。
LEXAは、以前のベンチマークと4つの標準的なロボット操作とロコモーションドメインにまたがる合計40のテストタスクを備えた新しい挑戦的なベンチマークの両方において、教師なしの目標達成に対する従来のアプローチを大幅に上回っている。
LEXAはさらに、シーケンス内の複数のオブジェクトとの相互作用を必要とする目標を達成する。
最後に、LEXAのスケーラビリティと汎用性を示すために、4つの異なる環境にまたがる1つの汎用エージェントを訓練する。
コードとビデオ: https://orybkin.github.io/lexa/
関連論文リスト
- Walk the Random Walk: Learning to Discover and Reach Goals Without
Supervision [21.72567982148215]
本稿では,外部の報酬やドメイン知識を伴わずに,そのような目標条件付きエージェントを訓練するための新しい手法を提案する。
我々はランダムウォークを用いて、2つの状態間の類似性を予測する到達可能性ネットワークを訓練する。
この到達可能性ネットワークは、様々なバランスの取れた過去の観測を含むゴールメモリの構築に使用される。
すべてのコンポーネントは、エージェントが新しい目標を発見して学習するにつれて、トレーニングを通じて更新される。
論文 参考訳(メタデータ) (2022-06-23T14:29:36Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。