論文の概要: A Review for Deep Reinforcement Learning in Atari:Benchmarks,
Challenges, and Solutions
- arxiv url: http://arxiv.org/abs/2112.04145v2
- Date: Fri, 10 Dec 2021 14:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 11:30:36.056293
- Title: A Review for Deep Reinforcement Learning in Atari:Benchmarks,
Challenges, and Solutions
- Title(参考訳): Atariにおける深層強化学習のレビュー:ベンチマーク,課題,解決策
- Authors: Jiajun Fan
- Abstract要約: Atari 2600ゲームにおけるエージェントの汎用性を実証的に評価するための評価プラットフォームとして,アーケード学習環境(Arcade Learning Environment, ALE)を提案する。
Deep Q-Networks (DQN) から Agent57 まで、RL エージェントは ALE において超人的性能を達成しているようだ。
本稿では,人間の世界記録(HWR)に基づく新しいAtariベンチマークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Arcade Learning Environment (ALE) is proposed as an evaluation platform
for empirically assessing the generality of agents across dozens of Atari 2600
games. ALE offers various challenging problems and has drawn significant
attention from the deep reinforcement learning (RL) community. From Deep
Q-Networks (DQN) to Agent57, RL agents seem to achieve superhuman performance
in ALE. However, is this the case? In this paper, to explore this problem, we
first review the current evaluation metrics in the Atari benchmarks and then
reveal that the current evaluation criteria of achieving superhuman performance
are inappropriate, which underestimated the human performance relative to what
is possible. To handle those problems and promote the development of RL
research, we propose a novel Atari benchmark based on human world records
(HWR), which puts forward higher requirements for RL agents on both final
performance and learning efficiency. Furthermore, we summarize the
state-of-the-art (SOTA) methods in Atari benchmarks and provide benchmark
results over new evaluation metrics based on human world records. We concluded
that at least four open challenges hinder RL agents from achieving superhuman
performance from those new benchmark results. Finally, we also discuss some
promising ways to handle those problems.
- Abstract(参考訳): アーケード学習環境(ale)は、多数のatari 2600ゲームにおけるエージェントの汎用性を評価するための評価プラットフォームとして提案されている。
ALEは様々な困難な問題を提供しており、深層強化学習(RL)コミュニティから大きな注目を集めている。
Deep Q-Networks (DQN) から Agent57 まで、RL エージェントは ALE において超人的性能を達成する。
しかし、これは当てはまりますか。
本稿では,まずatariベンチマークにおける現在の評価基準を概観し,その評価基準が不適切であることを明らかにした。
これらの問題に対処し、RL研究の発展を促進するために、人間の世界記録に基づく新しいAtariベンチマーク(HWR)を提案し、最終性能と学習効率の両面でRLエージェントのより高い要求を推し進める。
さらに,AtariベンチマークのSOTA(State-of-the-art)手法を要約し,人間の世界記録に基づく新しい評価指標に対するベンチマーク結果を提供する。
我々は、少なくとも4つのオープンな課題は、RLエージェントがこれらの新しいベンチマーク結果から超人的性能を達成することを妨げていると結論付けた。
最後に,これらの問題に対処するための有望な方法についても論じる。
関連論文リスト
- SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark [7.840781070208872]
2019年以降、既存の人工知能手法による課題について、限られた進展が観察されている。
これまでの研究は、ARCベンチマークで人間がいかにうまくタスクを解くことができるかを調査した。
我々は,400のトレーニングと400のタスクの完全なセットに基づいて1729人の人間を評価することによって,より堅牢な人的パフォーマンスの推定値を得る。
論文 参考訳(メタデータ) (2024-09-02T17:11:32Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - ARB: Advanced Reasoning Benchmark for Large Language Models [94.37521840642141]
複数の分野における先進的推論問題からなる新しいベンチマークであるABBを紹介する。
ARBのサブセットとして、高度なシンボリック推論とドメイン知識を必要とする数学と物理学の問題を紹介する。
我々は, GPT-4 や Claude on ARB などの最近のモデルを評価し, より要求の高いタスクにおいて, 現在のモデルが50%以下であることを示す。
論文 参考訳(メタデータ) (2023-07-25T17:55:19Z) - Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning [23.062590084580542]
Int-HRL:人間の視線から推測される意図に基づくサブゴールを持つ階層的RL。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T12:12:16Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Mask Atari for Deep Reinforcement Learning as POMDP Benchmarks [3.549772411359722]
Mask Atariは、部分的に観測可能なマルコフ決定プロセス(POMDP)問題を解決するための新しいベンチマークである。
観測エリアとして、コントロール可能、移動可能、学習可能なマスクを備えたアタリ2600ゲームを基に構築されている。
我々はベンチマークの課題と特徴を説明し、Mask Atariでいくつかのベースラインを評価した。
論文 参考訳(メタデータ) (2022-03-31T03:34:02Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Agent57: Outperforming the Atari Human Benchmark [15.75730239983062]
Atariゲームは強化学習における長年のベンチマークだ。
本稿では,Atari 57 ゲームにおいて,Atari 57 ゲームにおいてヒトの標準ベンチマークを上回り,初の深度 RL エージェントである Agent57 を提案する。
論文 参考訳(メタデータ) (2020-03-30T11:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。