論文の概要: Agent57: Outperforming the Atari Human Benchmark
- arxiv url: http://arxiv.org/abs/2003.13350v1
- Date: Mon, 30 Mar 2020 11:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:41:05.224968
- Title: Agent57: Outperforming the Atari Human Benchmark
- Title(参考訳): Agent57: Atari Human Benchmarkのパフォーマンス
- Authors: Adri\`a Puigdom\`enech Badia, Bilal Piot, Steven Kapturowski, Pablo
Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell
- Abstract要約: Atariゲームは強化学習における長年のベンチマークだ。
本稿では,Atari 57 ゲームにおいて,Atari 57 ゲームにおいてヒトの標準ベンチマークを上回り,初の深度 RL エージェントである Agent57 を提案する。
- 参考スコア(独自算出の注目度): 15.75730239983062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Atari games have been a long-standing benchmark in the reinforcement learning
(RL) community for the past decade. This benchmark was proposed to test general
competency of RL algorithms. Previous work has achieved good average
performance by doing outstandingly well on many games of the set, but very
poorly in several of the most challenging games. We propose Agent57, the first
deep RL agent that outperforms the standard human benchmark on all 57 Atari
games. To achieve this result, we train a neural network which parameterizes a
family of policies ranging from very exploratory to purely exploitative. We
propose an adaptive mechanism to choose which policy to prioritize throughout
the training process. Additionally, we utilize a novel parameterization of the
architecture that allows for more consistent and stable learning.
- Abstract(参考訳): Atariゲームは、過去10年間、強化学習(RL)コミュニティで長年にわたってベンチマークされてきた。
このベンチマークは、RLアルゴリズムの一般的な能力をテストするために提案された。
それまでの作業は、セットの多くのゲームで卓越したパフォーマンスを達成してきたが、いくつかの最も困難なゲームでは、非常に貧弱であった。
我々は,アタリの全57ゲームにおいて,人間の標準ベンチマークを上回った最初の深層rlエージェントであるエージェント57を提案する。
この結果を得るために、我々は、非常に探索的から純粋に悪用的なポリシーのファミリーをパラメータ化するニューラルネットワークを訓練する。
トレーニングプロセス全体を通して、どのポリシーを優先するかを選択する適応的なメカニズムを提案する。
さらに、より一貫性があり安定した学習を可能にするアーキテクチャの新たなパラメータ化も活用する。
関連論文リスト
- Reinforcing Competitive Multi-Agents for Playing So Long Sucker [0.393259574660092]
本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
論文 参考訳(メタデータ) (2024-11-17T12:38:13Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play [12.754819077905061]
Minimax Exploiterは、敵の知識を活用するメインエージェントを利用するゲーム理論のアプローチである。
簡単なターンベースゲームやアーケード学習環境,現代的なビデオゲームであるFor Honorなど,さまざまな設定でアプローチを検証する。
論文 参考訳(メタデータ) (2023-11-28T19:34:40Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Human-level Atari 200x faster [21.329004162570016]
Agent57は57の全てのゲームで人為的なベンチマークを超えた最初のエージェントとなったが、これはデータ効率の悪さの犠牲となった。
我々は、人間のベースラインを上回る200倍のエクスペリエンスを実現するために、多種多様な戦略を用いています。
また,Muesli や MuZero のような高性能な手法による競合性能も示す。
論文 参考訳(メタデータ) (2022-09-15T18:08:48Z) - A Review for Deep Reinforcement Learning in Atari:Benchmarks,
Challenges, and Solutions [0.0]
Atari 2600ゲームにおけるエージェントの汎用性を実証的に評価するための評価プラットフォームとして,アーケード学習環境(Arcade Learning Environment, ALE)を提案する。
Deep Q-Networks (DQN) から Agent57 まで、RL エージェントは ALE において超人的性能を達成しているようだ。
本稿では,人間の世界記録(HWR)に基づく新しいAtariベンチマークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:52:23Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。