論文の概要: Atari-5: Distilling the Arcade Learning Environment down to Five Games
- arxiv url: http://arxiv.org/abs/2210.02019v1
- Date: Wed, 5 Oct 2022 04:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:06:47.247585
- Title: Atari-5: Distilling the Arcade Learning Environment down to Five Games
- Title(参考訳): Atari-5: アーケード学習環境を5ゲームに拡張
- Authors: Matthew Aitchison, Penny Sweetser, Marcus Hutter
- Abstract要約: 本稿では,ベンチマークスイート内の環境の小さいが代表的なサブセットを選択するための原則的手法を提案する。
ALEにおける多くのゲーム間で高い相関関係があるため、このレベルの圧縮が可能であることが示される。
- 参考スコア(独自算出の注目度): 16.907436111256253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Arcade Learning Environment (ALE) has become an essential benchmark for
assessing the performance of reinforcement learning algorithms. However, the
computational cost of generating results on the entire 57-game dataset limits
ALE's use and makes the reproducibility of many results infeasible. We propose
a novel solution to this problem in the form of a principled methodology for
selecting small but representative subsets of environments within a benchmark
suite. We applied our method to identify a subset of five ALE games, called
Atari-5, which produces 57-game median score estimates within 10% of their true
values. Extending the subset to 10-games recovers 80% of the variance for
log-scores for all games within the 57-game set. We show this level of
compression is possible due to a high degree of correlation between many of the
games in ALE.
- Abstract(参考訳): アーケード学習環境(ale)は強化学習アルゴリズムの性能を評価する上で不可欠なベンチマークとなっている。
しかし、57ゲームデータセット全体の結果を生成する計算コストは、ALEの使用を制限し、多くの結果の再現性を実現する。
本稿では,ベンチマークスイート内の環境の小さいが代表的な部分集合を選択するための原理的手法として,この問題に対する新しい解法を提案する。
本手法は5つのエールゲーム(atari-5)のサブセットを識別するために応用し,真価の10%以内で57ゲーム中央値の見積もりを生成する。
サブセットを10ゲームに拡張すると、57ゲームセット内の全てのゲームに対するログスコアの分散の80%が回復する。
ALEにおける多くのゲーム間の高い相関関係により、このレベルの圧縮が可能となることを示す。
関連論文リスト
- Solving Hierarchical Information-Sharing Dec-POMDPs: An Extensive-Form
Game Approach [2.908482270923597]
本稿では,階層的な情報共有の下での最適性を維持しつつ,決定変数をアンタングルにする方法を示す。
我々のアプローチでは、広義のゲームは常に単一ステージのサブゲームに対する解決策として存在し、時間的複雑さを著しく減少させる。
論文 参考訳(メタデータ) (2024-02-05T12:33:05Z) - Predicting Winning Regions in Parity Games via Graph Neural Networks
(Extended Abstract) [68.8204255655161]
グラフニューラルネットワークを用いてパリティゲームの勝利領域を決定するための不完全時間的アプローチを提案する。
これは、データセットの60%の勝利領域を正しく決定し、残りの領域で小さなエラーしか発生しない。
論文 参考訳(メタデータ) (2022-10-18T15:10:25Z) - Reducing Variance in Temporal-Difference Value Estimation via Ensemble
of Deep Networks [109.59988683444986]
MeanQは単純なアンサンブル法であり、ターゲット値をアンサンブル平均として推定する。
本稿では,Atari Learning Environmentベンチマークを用いた実験において,MeanQが顕著なサンプル効率を示すことを示す。
論文 参考訳(メタデータ) (2022-09-16T01:47:36Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Reliable validation of Reinforcement Learning Benchmarks [1.2031796234206134]
強化学習(Reinforcement Learning, RL)は、ゲームAIとAI全般において、最もダイナミックな研究分野の1つである。
Atariのような異なるアルゴリズムを比較するためにスコアが使用されるベンチマーク環境はたくさんあります。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
論文 参考訳(メタデータ) (2022-03-02T12:55:27Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Agent57: Outperforming the Atari Human Benchmark [15.75730239983062]
Atariゲームは強化学習における長年のベンチマークだ。
本稿では,Atari 57 ゲームにおいて,Atari 57 ゲームにおいてヒトの標準ベンチマークを上回り,初の深度 RL エージェントである Agent57 を提案する。
論文 参考訳(メタデータ) (2020-03-30T11:33:16Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。