Fugu-MT 論文翻訳(概要): Mastering Atari with Discrete World Models

論文の概要: Mastering Atari with Discrete World Models

arxiv url: http://arxiv.org/abs/2010.02193v4
Date: Sat, 12 Feb 2022 20:01:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 19:55:12.969206
Title: Mastering Atari with Discrete World Models
Title（参考訳）: 離散世界モデルによるatariのマスタリング
Authors: Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, Jimmy Ba
Abstract要約: 本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。 DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
参考スコア（独自算出の注目度）: 61.7688353335468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intelligent agents need to generalize from past experience to achieve goals in complex environments. World models facilitate such generalization and allow learning behaviors from imagined outcomes to increase sample-efficiency. While learning world models from image inputs has recently become feasible for some tasks, modeling Atari games accurately enough to derive successful behaviors has remained an open challenge for many years. We introduce DreamerV2, a reinforcement learning agent that learns behaviors purely from predictions in the compact latent space of a powerful world model. The world model uses discrete representations and is trained separately from the policy. DreamerV2 constitutes the first agent that achieves human-level performance on the Atari benchmark of 55 tasks by learning behaviors inside a separately trained world model. With the same computational budget and wall-clock time, Dreamer V2 reaches 200M frames and surpasses the final performance of the top single-GPU agents IQN and Rainbow. DreamerV2 is also applicable to tasks with continuous actions, where it learns an accurate world model of a complex humanoid robot and solves stand-up and walking from only pixel inputs.
Abstract（参考訳）: インテリジェントエージェントは、複雑な環境で目標を達成するために過去の経験から一般化する必要があります。世界モデルはそのような一般化を促進し、想像結果からの学習行動がサンプル効率を高めることを可能にする。画像入力から世界モデルを学ぶことは、最近いくつかのタスクで実現可能になったが、atariゲームを正確にモデル化して成功した振る舞いを導き出すことは、長年にわたってオープンな課題であり続けている。強力な世界モデルのコンパクトな潜在空間における予測から純粋に振る舞いを学習する強化学習エージェントdreamerv2を紹介する。世界モデルは離散表現を使い、ポリシーから分離して訓練される。 dreamerv2は、別々に訓練された世界モデル内で行動を学ぶことによって55タスクのatariベンチマークで人間レベルのパフォーマンスを達成する最初のエージェントである。同じ計算予算とウォールクロック時間で、Dreamer V2は2億フレームに達し、上位のシングルGPUエージェントIQNとRainbowの最終的なパフォーマンスを上回る。 dreamerv2は、複雑なヒューマノイドロボットの正確な世界モデルを学び、ピクセル入力のみから立ち上がりや歩行を解く、連続的なアクションを持つタスクにも適用できる。

関連論文リスト

DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文参考訳（メタデータ） (2025-05-19T04:55:39Z)
$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization [81.73746512639283]
広義の一般化を実現するために異種タスクのコトレーニングを利用する$pi_0.5$に基づく新しいモデルについて述べる。本研究では,エンド・ツー・エンドの学習支援ロボットシステムが,長期的かつ巧妙な操作能力を発揮することを初めて実証する。
論文参考訳（メタデータ） (2025-04-22T17:31:29Z)
Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination [25.62602420895531]
DreMaは、実世界の学習された明示的な表現とそのダイナミクスを使って、デジタル双生児を構築するための新しいアプローチである。 DreMaはタスク毎の1つの例から新しい物理タスクを学べることを示す。
論文参考訳（メタデータ） (2024-12-19T15:38:15Z)
Learning to Play Atari in a World of Tokens [4.880437151994464]
変換器に基づく学習(DART)のための離散抽象表現を導入する。本研究では,自己回帰的世界モデリングのためのトランスフォーマー・デコーダと,世界モデルの離散表現におけるタスク関連キューへの参加による学習行動のためのトランスフォーマー・デコーダを組み込んだ。 DARTは、Atari 100kサンプル効率ベンチマークでルックアヘッド検索を使用しない従来の最先端の手法よりも、平均的な人間正規化スコアが0.790で、26試合中9試合で人間に勝っている。
論文参考訳（メタデータ） (2024-06-03T14:25:29Z)
Diffusion for World Modeling: Visual Details Matter in Atari [22.915802013352465]
拡散世界モデルで訓練された強化学習エージェントであるDIAMOND(DIffusion As a Model of eNvironment Dreams)を紹介する。我々は,世界モデリングに適した拡散を実現する上で必要となる重要な設計選択を解析し,視覚的詳細の改善がエージェントの性能向上にどのように寄与するかを実証する。 DIAMONDは競争力のあるAtari 100kベンチマークで平均1.46の人間正規化スコアを達成している。
論文参考訳（メタデータ） (2024-05-20T22:51:05Z)
WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens [75.02160668328425]
本稿では,世界物理学と運動の包括的理解を促進する先駆的な世界モデルであるWorldDreamerを紹介する。 WorldDreamerは、教師なしのビジュアルシーケンスモデリングチャレンジとして世界モデリングをフレーム化している。我々の実験によると、WorldDreamerは自然のシーンや運転環境など、さまざまなシナリオでビデオを生成するのに優れています。
論文参考訳（メタデータ） (2024-01-18T14:01:20Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
Hieros: Hierarchical Imagination on Structured State Space Sequence World Models [4.922995343278039]
ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
論文参考訳（メタデータ） (2023-10-08T13:52:40Z)
Real-World Humanoid Locomotion with Reinforcement Learning [92.85934954371099]
実世界におけるヒューマノイド移動に対する完全学習型アプローチを提案する。コントローラーは様々な屋外の地形の上を歩けるし、外乱に対して頑丈で、状況に応じて適応できる。
論文参考訳（メタデータ） (2023-03-06T18:59:09Z)
Transformers are Sample Efficient World Models [1.9444242128493845]
我々は、離散自己エンコーダと自己回帰変換器からなる世界モデルで学習するデータ効率のエージェントIRISを紹介する。 Atari 100kベンチマークの2時間のゲームプレイに相当するIRISは、平均的な人間正規化スコア1.046を達成し、26ゲーム中10ゲームで人間を上回っている。
論文参考訳（メタデータ） (2022-09-01T17:03:07Z)
DayDreamer: World Models for Physical Robot Learning [142.11031132529524]
深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。ロボット学習の多くの進歩はシミュレータに依存している。本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
論文参考訳（メタデータ） (2022-06-28T17:44:48Z)
Human-Level Reinforcement Learning through Theory-Based Modeling, Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。 EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。 EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文参考訳（メタデータ） (2021-07-27T01:38:13Z)
Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文参考訳（メタデータ） (2019-03-01T15:40:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。