論文の概要: Mastering Atari with Discrete World Models
- arxiv url: http://arxiv.org/abs/2010.02193v4
- Date: Sat, 12 Feb 2022 20:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:55:12.969206
- Title: Mastering Atari with Discrete World Models
- Title(参考訳): 離散世界モデルによるatariのマスタリング
- Authors: Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba
- Abstract要約: 本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
- 参考スコア(独自算出の注目度): 61.7688353335468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent agents need to generalize from past experience to achieve goals
in complex environments. World models facilitate such generalization and allow
learning behaviors from imagined outcomes to increase sample-efficiency. While
learning world models from image inputs has recently become feasible for some
tasks, modeling Atari games accurately enough to derive successful behaviors
has remained an open challenge for many years. We introduce DreamerV2, a
reinforcement learning agent that learns behaviors purely from predictions in
the compact latent space of a powerful world model. The world model uses
discrete representations and is trained separately from the policy. DreamerV2
constitutes the first agent that achieves human-level performance on the Atari
benchmark of 55 tasks by learning behaviors inside a separately trained world
model. With the same computational budget and wall-clock time, Dreamer V2
reaches 200M frames and surpasses the final performance of the top single-GPU
agents IQN and Rainbow. DreamerV2 is also applicable to tasks with continuous
actions, where it learns an accurate world model of a complex humanoid robot
and solves stand-up and walking from only pixel inputs.
- Abstract(参考訳): インテリジェントエージェントは、複雑な環境で目標を達成するために過去の経験から一般化する必要があります。
世界モデルはそのような一般化を促進し、想像結果からの学習行動がサンプル効率を高めることを可能にする。
画像入力から世界モデルを学ぶことは、最近いくつかのタスクで実現可能になったが、atariゲームを正確にモデル化して成功した振る舞いを導き出すことは、長年にわたってオープンな課題であり続けている。
強力な世界モデルのコンパクトな潜在空間における予測から純粋に振る舞いを学習する強化学習エージェントdreamerv2を紹介する。
世界モデルは離散表現を使い、ポリシーから分離して訓練される。
dreamerv2は、別々に訓練された世界モデル内で行動を学ぶことによって55タスクのatariベンチマークで人間レベルのパフォーマンスを達成する最初のエージェントである。
同じ計算予算とウォールクロック時間で、Dreamer V2は2億フレームに達し、上位のシングルGPUエージェントIQNとRainbowの最終的なパフォーマンスを上回る。
dreamerv2は、複雑なヒューマノイドロボットの正確な世界モデルを学び、ピクセル入力のみから立ち上がりや歩行を解く、連続的なアクションを持つタスクにも適用できる。
関連論文リスト
- WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z) - Learning Unsupervised World Models for Autonomous Driving via Discrete
Diffusion [38.48682990918926]
センサ観測をVQVAEでトークン化する新しい世界モデリング手法を提案する。
本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Hieros: Hierarchical Imagination on Structured State Space Sequence
World Models [4.922995343278039]
ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。
我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-08T13:52:40Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - DayDreamer: World Models for Physical Robot Learning [142.11031132529524]
深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。
ロボット学習の多くの進歩はシミュレータに依存している。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
論文 参考訳(メタデータ) (2022-06-28T17:44:48Z) - Dropout's Dream Land: Generalization from Learned Simulators to Reality [33.9093915440877]
世界モデルは環境をシミュレートするための生成モデルである。
本研究では,ドリーム環境から現実環境への一般化能力の向上について検討する。
本稿では,ニューラルネットワークのドリーム環境から現実へ移行するコントローラの能力を改善するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-17T03:58:56Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。