論文の概要: MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello,
and Atari Games
- arxiv url: http://arxiv.org/abs/2310.11305v2
- Date: Wed, 15 Nov 2023 05:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 19:36:05.571888
- Title: MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello,
and Atari Games
- Title(参考訳): MiniZero: Go, Othello, Atari GamesにおけるAlphaZeroとMuZeroの比較分析
- Authors: Ti-Rong Wu, Hung Guei, Po-Wei Huang, Pei-Chiun Peng, Ting Han Wei,
Chung-Chin Shih, Yun-Jui Tsai
- Abstract要約: MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
- 参考スコア(独自算出の注目度): 9.807988283091728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents MiniZero, a zero-knowledge learning framework that
supports four state-of-the-art algorithms, including AlphaZero, MuZero, Gumbel
AlphaZero, and Gumbel MuZero. While these algorithms have demonstrated
super-human performance in many games, it remains unclear which among them is
most suitable or efficient for specific tasks. Through MiniZero, we
systematically evaluate the performance of each algorithm in two board games,
9x9 Go and 8x8 Othello, as well as 57 Atari games. For two board games, using
more simulations generally results in higher performance. However, the choice
of AlphaZero and MuZero may differ based on game properties. For Atari games,
both MuZero and Gumbel MuZero are worth considering. Since each game has unique
characteristics, different algorithms and simulations yield varying results. In
addition, we introduce an approach, called progressive simulation, which
progressively increases the simulation budget during training to allocate
computation more efficiently. Our empirical results demonstrate that
progressive simulation achieves significantly superior performance in two board
games. By making our framework and trained models publicly available, this
paper contributes a benchmark for future research on zero-knowledge learning
algorithms, assisting researchers in algorithm selection and comparison against
these zero-knowledge learning baselines. Our code and data are available at
https://rlg.iis.sinica.edu.tw/papers/minizero.
- Abstract(参考訳): 本稿では,AlphaZero,MuZero,Gumbel AlphaZero,Gumbel MuZeroの4つの最先端アルゴリズムをサポートするゼロ知識学習フレームワークであるMiniZeroを提案する。
これらのアルゴリズムは多くのゲームで超人的性能を示しているが、どのアルゴリズムが特定のタスクに最も適しているか、それとも効率的かは定かではない。
minizeroを通じて,2つのボードゲーム,9x9 goと8x8 othelloおよび57のatariゲームにおける各アルゴリズムのパフォーマンスを体系的に評価した。
2つのボードゲームでは、より多くのシミュレーションを使用することでパフォーマンスが向上する。
しかし、AlphaZero と MuZero の選択はゲームの性質によって異なる可能性がある。
Atariのゲームでは、MuZeroとGumbel MuZeroの両方が検討に値する。
各ゲームに固有の特徴があるため、異なるアルゴリズムとシミュレーションが様々な結果をもたらす。
さらに,より効率的に計算を割り当てるため,訓練中のシミュレーション予算を漸進的に増加させるプログレッシブ・シミュレーションという手法を導入する。
実験の結果,プログレッシブシミュレーションは2つのボードゲームにおいて有意に優れた性能が得られることがわかった。
本論文は,我々のフレームワークと学習モデルを公開することにより,ゼロ知識学習アルゴリズムの今後の研究のためのベンチマークを提供し,これらのゼロ知識学習ベースラインに対する研究者のアルゴリズム選択と比較を支援する。
私たちのコードとデータはhttps://rlg.iis.sinica.edu.tw/papers/minizeroで公開されています。
関連論文リスト
- Interpreting the Learned Model in MuZero Planning [12.47846647115319]
MuZeroは、動的ネットワークを用いて、計画のための環境ダイナミクスを予測することで、様々なゲームで超人的なパフォーマンスを実現している。
本稿では,学習した潜伏状態の解釈により,MuZeroのモデルをデミスティフィケートすることを目的とする。
論文 参考訳(メタデータ) (2024-11-07T10:06:23Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Learning to Play Stochastic Two-player Perfect-Information Games without
Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。
我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。
最良の結果を得るのはDescentの一般化である。
論文 参考訳(メタデータ) (2023-02-08T20:27:45Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。