論文の概要: Model-Based Reinforcement Learning for Atari
- arxiv url: http://arxiv.org/abs/1903.00374v5
- Date: Wed, 3 Apr 2024 14:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 21:09:13.126981
- Title: Model-Based Reinforcement Learning for Atari
- Title(参考訳): モデルに基づくアタリ強化学習
- Authors: Lukasz Kaiser, Mohammad Babaeizadeh, Piotr Milos, Blazej Osinski, Roy H Campbell, Konrad Czechowski, Dumitru Erhan, Chelsea Finn, Piotr Kozakowski, Sergey Levine, Afroz Mohiuddin, Ryan Sepassi, George Tucker, Henryk Michalewski,
- Abstract要約: エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
- 参考スコア(独自算出の注目度): 89.3039240303797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free reinforcement learning (RL) can be used to learn effective policies for complex tasks, such as Atari games, even from image observations. However, this typically requires very large amounts of interaction -- substantially more, in fact, than a human would need to learn the same games. How can people learn so quickly? Part of the answer may be that people can learn how the game works and predict which actions will lead to desirable outcomes. In this paper, we explore how video prediction models can similarly enable agents to solve Atari games with fewer interactions than model-free methods. We describe Simulated Policy Learning (SimPLe), a complete model-based deep RL algorithm based on video prediction models and present a comparison of several model architectures, including a novel architecture that yields the best results in our setting. Our experiments evaluate SimPLe on a range of Atari games in low data regime of 100k interactions between the agent and the environment, which corresponds to two hours of real-time play. In most games SimPLe outperforms state-of-the-art model-free algorithms, in some games by over an order of magnitude.
- Abstract(参考訳): モデルフリー強化学習(RL)は、画像観察からでも、アタリゲームのような複雑なタスクの効果的なポリシーを学ぶために用いられる。
しかし、これは通常、非常に多くの相互作用を必要とします -- 実際、人間が同じゲームを学ぶ必要があるよりもずっとです。
どうしてそんなに早く学べるのでしょうか。
答えの一部は、人々がゲームがどのように機能するかを学び、どのアクションが望ましい結果をもたらすかを予測できるということです。
本稿では,エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解決するために,動画予測モデルがいかに有効かを検討する。
シミュレートされたポリシー学習(SimPLe)は,ビデオ予測モデルに基づく完全モデルベースディープRLアルゴリズムである。
実験では,エージェントと環境間の100kの相互作用の少ないアタリゲームにおいて,2時間のリアルタイムプレイに対応するSimPLeを評価した。
ほとんどのゲームでは、SimPLeは最先端のモデルフリーアルゴリズムより優れており、一部のゲームでは桁違いに優れている。
関連論文リスト
- Mutual Learning for Finetuning Click-Through Rate Prediction Models [0.0]
本稿では,相互学習アルゴリズムが対等である場合に,いかに有用かを示す。
CriteoデータセットとAvazuデータセットの実験では、相互学習アルゴリズムがモデルの性能を最大0.66%改善した。
論文 参考訳(メタデータ) (2024-06-17T20:56:30Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - High Performance Across Two Atari Paddle Games Using the Same Perceptual
Control Architecture Without Training [0.0]
単純な仮定に基づく知覚制御モデルは、学習せずにうまく機能することを示す。
我々は、心理学的機能とより類似した学習の同義的な役割を特定することで結論付ける。
論文 参考訳(メタデータ) (2021-08-04T08:00:30Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z) - Neural Game Engine: Accurate learning of generalizable forward models
from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。
10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-23T20:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。