論文の概要: CALE: Continuous Arcade Learning Environment
- arxiv url: http://arxiv.org/abs/2410.23810v1
- Date: Thu, 31 Oct 2024 10:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:53.660267
- Title: CALE: Continuous Arcade Learning Environment
- Title(参考訳): CALE: 継続的アーケード学習環境
- Authors: Jesse Farebrother, Pablo Samuel Castro,
- Abstract要約: 継続的アーケード学習環境(CALE)は、よく知られたアーケード学習環境(ALE)の拡張である
CALEは、Atari 2600ゲームシステム(Stella)の根底にあるエミュレータを使用しているが、継続的なアクションのサポートを追加している。
本稿では,CALEが実現した一連のオープンな質問と研究の方向性と,Soft Actor-Criticを用いたベースライン結果について述べる。
- 参考スコア(独自算出の注目度): 16.046977444532097
- License:
- Abstract: We introduce the Continuous Arcade Learning Environment (CALE), an extension of the well-known Arcade Learning Environment (ALE) [Bellemare et al., 2013]. The CALE uses the same underlying emulator of the Atari 2600 gaming system (Stella), but adds support for continuous actions. This enables the benchmarking and evaluation of continuous-control agents (such as PPO [Schulman et al., 2017] and SAC [Haarnoja et al., 2018]) and value-based agents (such as DQN [Mnih et al., 2015] and Rainbow [Hessel et al., 2018]) on the same environment suite. We provide a series of open questions and research directions that CALE enables, as well as initial baseline results using Soft Actor-Critic. CALE is available as part of the ALE athttps://github.com/Farama-Foundation/Arcade-Learning-Environment.
- Abstract(参考訳): 本稿では、有名なアーケード学習環境(ALE)の拡張であるContinuous Arcade Learning Environment(CALE)を紹介する。
CALEは、Atari 2600ゲームシステム(Stella)の根底にあるエミュレータを使用しているが、継続的なアクションのサポートを追加している。
これにより、連続制御エージェント(PPO(Schulman et al , 2017)やSAC(Haarnoja et al , 2018))や価値ベースのエージェント(DQN(Mnih et al , 2015)やRainbow(Hessel et al , 2018))を同じ環境スイート上でベンチマークおよび評価することが可能になります。
本稿では,CALEが実現した一連のオープンな質問と研究の方向性と,Soft Actor-Criticを用いたベースライン結果について述べる。
CALEはALE athttps://github.com/Farama-Foundation/Arcade-Learning-Environmentの一部として利用可能である。
関連論文リスト
- Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Double A3C: Deep Reinforcement Learning on OpenAI Gym Games [0.0]
強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
両アルゴリズムがOpenAI Gym Atari 2600をプレイしてベンチマークを上回り,両アルゴリズムの強みを生かしたDouble A3Cアルゴリズムの改良版を提案し,実装する。
論文 参考訳(メタデータ) (2023-03-04T00:06:27Z) - Towards automating Codenames spymasters with deep reinforcement learning [0.0]
この研究は、マルコフ決定プロセスとしてコードネームを定式化した最初のものである。
SAC、PPO、A2Cといった有名な強化学習アルゴリズムを環境に適用する。
論文 参考訳(メタデータ) (2022-12-28T21:45:59Z) - Revisiting Discrete Soft Actor-Critic [13.548839096059929]
本研究では,ソフトアクター・クリティック(SAC)の連続的な行動空間から離散的な行動空間への適応について検討する。
本稿では,これらの問題に対処するため,Q-clipを用いたエントロピー・ペナルティとダブル平均Q-ラーニングを提案する。
論文 参考訳(メタデータ) (2022-09-21T03:01:36Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Multiplayer Support for the Arcade Learning Environment [0.0]
マルチプレイヤーゲームやゲームモードへのサポートを拡張した,ALEの公開拡張について紹介する。
このインターフェースは PettingZoo と統合されており、Python の Gym ライクなインターフェースでこれらのゲームと対話することができる。
論文 参考訳(メタデータ) (2020-09-20T03:19:12Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage
Decomposition [59.34067736545355]
有限水平型マルコフ決定過程(MDP)における強化学習問題を,S$状態,A$動作,エピソード長$H$を用いて検討した。
モデルフリーアルゴリズム UCB-Advantage を提案し、$T = KH$ および $K$ が再生すべきエピソード数である場合に $tildeO(sqrtH2SAT)$ regret を達成することを証明した。
論文 参考訳(メタデータ) (2020-04-21T14:00:06Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。