論文の概要: Mastering Atari with Discrete World Models
- arxiv url: http://arxiv.org/abs/2010.02193v4
- Date: Sat, 12 Feb 2022 20:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:55:12.969206
- Title: Mastering Atari with Discrete World Models
- Title(参考訳): 離散世界モデルによるatariのマスタリング
- Authors: Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba
- Abstract要約: 本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
- 参考スコア(独自算出の注目度): 61.7688353335468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent agents need to generalize from past experience to achieve goals
in complex environments. World models facilitate such generalization and allow
learning behaviors from imagined outcomes to increase sample-efficiency. While
learning world models from image inputs has recently become feasible for some
tasks, modeling Atari games accurately enough to derive successful behaviors
has remained an open challenge for many years. We introduce DreamerV2, a
reinforcement learning agent that learns behaviors purely from predictions in
the compact latent space of a powerful world model. The world model uses
discrete representations and is trained separately from the policy. DreamerV2
constitutes the first agent that achieves human-level performance on the Atari
benchmark of 55 tasks by learning behaviors inside a separately trained world
model. With the same computational budget and wall-clock time, Dreamer V2
reaches 200M frames and surpasses the final performance of the top single-GPU
agents IQN and Rainbow. DreamerV2 is also applicable to tasks with continuous
actions, where it learns an accurate world model of a complex humanoid robot
and solves stand-up and walking from only pixel inputs.
- Abstract(参考訳): インテリジェントエージェントは、複雑な環境で目標を達成するために過去の経験から一般化する必要があります。
世界モデルはそのような一般化を促進し、想像結果からの学習行動がサンプル効率を高めることを可能にする。
画像入力から世界モデルを学ぶことは、最近いくつかのタスクで実現可能になったが、atariゲームを正確にモデル化して成功した振る舞いを導き出すことは、長年にわたってオープンな課題であり続けている。
強力な世界モデルのコンパクトな潜在空間における予測から純粋に振る舞いを学習する強化学習エージェントdreamerv2を紹介する。
世界モデルは離散表現を使い、ポリシーから分離して訓練される。
dreamerv2は、別々に訓練された世界モデル内で行動を学ぶことによって55タスクのatariベンチマークで人間レベルのパフォーマンスを達成する最初のエージェントである。
同じ計算予算とウォールクロック時間で、Dreamer V2は2億フレームに達し、上位のシングルGPUエージェントIQNとRainbowの最終的なパフォーマンスを上回る。
dreamerv2は、複雑なヒューマノイドロボットの正確な世界モデルを学び、ピクセル入力のみから立ち上がりや歩行を解く、連続的なアクションを持つタスクにも適用できる。
関連論文リスト
- Learning to Play Atari in a World of Tokens [4.880437151994464]
変換器に基づく学習(DART)のための離散抽象表現を導入する。
本研究では,自己回帰的世界モデリングのためのトランスフォーマー・デコーダと,世界モデルの離散表現におけるタスク関連キューへの参加による学習行動のためのトランスフォーマー・デコーダを組み込んだ。
DARTは、Atari 100kサンプル効率ベンチマークでルックアヘッド検索を使用しない従来の最先端の手法よりも、平均的な人間正規化スコアが0.790で、26試合中9試合で人間に勝っている。
論文 参考訳(メタデータ) (2024-06-03T14:25:29Z) - Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。
我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。
DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文 参考訳(メタデータ) (2024-05-20T22:51:05Z) - WorldDreamer: Towards General World Models for Video Generation via
Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。
WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。
我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文 参考訳(メタデータ) (2024-01-18T14:01:20Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Hieros: Hierarchical Imagination on Structured State Space Sequence
World Models [4.922995343278039]
ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。
我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-08T13:52:40Z) - Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。
コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文 参考訳(メタデータ) (2023-03-06T18:59:09Z) - Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。
Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文 参考訳(メタデータ) (2022-09-01T17:03:07Z) - DayDreamer: World Models for Physical Robot Learning [142.11031132529524]
深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。
ロボット学習の多くの進歩はシミュレータに依存している。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
論文 参考訳(メタデータ) (2022-06-28T17:44:48Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。