論文の概要: Mastering Atari Games with Limited Data
- arxiv url: http://arxiv.org/abs/2111.00210v1
- Date: Sat, 30 Oct 2021 09:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 12:57:18.317870
- Title: Mastering Atari Games with Limited Data
- Title(参考訳): 限定データでatariゲームをマスターする
- Authors: Weirui Ye, Shaohuai Liu, Thanard Kurutach, Pieter Abbeel, Yang Gao
- Abstract要約: 我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
- 参考スコア(独自算出の注目度): 73.6189496825209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has achieved great success in many applications.
However, sample efficiency remains a key challenge, with prominent methods
requiring millions (or even billions) of environment steps to train. Recently,
there has been significant progress in sample efficient image-based RL
algorithms; however, consistent human-level performance on the Atari game
benchmark remains an elusive goal. We propose a sample efficient model-based
visual RL algorithm built on MuZero, which we name EfficientZero. Our method
achieves 190.4% mean human performance and 116.0% median performance on the
Atari 100k benchmark with only two hours of real-time game experience and
outperforms the state SAC in some tasks on the DMControl 100k benchmark. This
is the first time an algorithm achieves super-human performance on Atari games
with such little data. EfficientZero's performance is also close to DQN's
performance at 200 million frames while we consume 500 times less data.
EfficientZero's low sample complexity and high performance can bring RL closer
to real-world applicability. We implement our algorithm in an
easy-to-understand manner and it is available at
https://github.com/YeWR/EfficientZero. We hope it will accelerate the research
of MCTS-based RL algorithms in the wider community.
- Abstract(参考訳): 強化学習は多くのアプリケーションで大きな成功を収めた。
しかし、サンプルの効率性は依然として重要な課題であり、訓練には数百万(あるいは数十億)の環境ステップが必要である。
近年,効率的な画像ベースrlアルゴリズムのサンプル化が進んでいるが,atariゲームベンチマークにおける一貫した人間レベルのパフォーマンスはいまだに不明な目標である。
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
本手法は, atari 100kベンチマークにおいて190.4%の人的パフォーマンスと116.0%の中央値性能を達成し, リアルタイムゲーム体験を2時間しか持たず, dmcontrol 100kベンチマークのタスクで状態sacを上回っている。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのはこれが初めてである。
EfficientZeroのパフォーマンスも、500倍のデータを消費しながら、2億フレームでのDQNのパフォーマンスに近い。
EfficientZeroの低サンプリングの複雑さとハイパフォーマンスは、RLを現実の応用に近づける可能性がある。
私たちはこのアルゴリズムを理解しやすい方法で実装し、https://github.com/yewr/efferencyzeroで利用できます。
MCTSベースのRLアルゴリズムの研究を、より広いコミュニティで加速させることを願っている。
関連論文リスト
- ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze [5.671696366787522]
本稿では,モンテカルロ木探索アルゴリズムにおける木探索の高速化を目的としたReZeroという手法を提案する。
具体的には、ある子ノードの値を事前に推定する逆ビュー再利用手法を用いて、トレーニングサンプルを再解析する。
アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-25T07:02:07Z) - EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data [22.621203162457018]
本稿では,サンプル効率のよい強化学習(RL)アルゴリズム用に設計されたフレームワークであるEfficientZero V2を紹介する。
一連の改善により、EfficientZero V2は、様々なタスクにおいて、現在の最先端(SOTA)を上回っている。
効率的なZero V2は一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、66のタスクのうち50で優れた結果を得た。
論文 参考訳(メタデータ) (2024-03-01T14:42:25Z) - MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games [9.339645051415115]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Fast and Data Efficient Reinforcement Learning from Pixels via
Non-Parametric Value Approximation [90.78178803486746]
離散動作,画素ベース環境のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。
ATARI100kの26ゲーム版と57ゲーム版の両方においてNAITを実証的に評価した。
論文 参考訳(メタデータ) (2022-03-07T00:31:31Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z) - Agent57: Outperforming the Atari Human Benchmark [15.75730239983062]
Atariゲームは強化学習における長年のベンチマークだ。
本稿では,Atari 57 ゲームにおいて,Atari 57 ゲームにおいてヒトの標準ベンチマークを上回り,初の深度 RL エージェントである Agent57 を提案する。
論文 参考訳(メタデータ) (2020-03-30T11:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。