論文の概要: AlphaZero Gomoku
- arxiv url: http://arxiv.org/abs/2309.01294v1
- Date: Mon, 4 Sep 2023 00:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:23:55.819548
- Title: AlphaZero Gomoku
- Title(参考訳): AlphaZero Gomoku
- Authors: Wen Liang, Chao Yu, Brian Whiteaker, Inyoung Huh, Hua Shao, Youzhi
Liang
- Abstract要約: 我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
- 参考スコア(独自算出の注目度): 9.434566356382529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past few years, AlphaZero's exceptional capability in mastering
intricate board games has garnered considerable interest. Initially designed
for the game of Go, this revolutionary algorithm merges deep learning
techniques with the Monte Carlo tree search (MCTS) to surpass earlier top-tier
methods. In our study, we broaden the use of AlphaZero to Gomoku, an age-old
tactical board game also referred to as "Five in a Row." Intriguingly, Gomoku
has innate challenges due to a bias towards the initial player, who has a
theoretical advantage. To add value, we strive for a balanced game-play. Our
tests demonstrate AlphaZero's versatility in adapting to games other than Go.
MCTS has become a predominant algorithm for decision processes in intricate
scenarios, especially board games. MCTS creates a search tree by examining
potential future actions and uses random sampling to predict possible results.
By leveraging the best of both worlds, the AlphaZero technique fuses deep
learning from Reinforcement Learning with the balancing act of MCTS,
establishing a fresh standard in game-playing AI. Its triumph is notably
evident in board games such as Go, chess, and shogi.
- Abstract(参考訳): ここ数年、alphazeroの複雑なボードゲームを習得する能力は、かなりの関心を集めている。
当初、goゲーム用に設計されたこの革命的アルゴリズムは、モンテカルロ木探索(mcts)とディープラーニング技術を融合して、以前のトップ層メソッドを上回った。
本研究は,AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲームであるGomokuに拡張するものである。
興味深いことに、gomokuは、理論的に有利な最初のプレイヤーに対するバイアスのために、生来の課題を抱えている。
価値を付加するために、バランスのとれたゲームプレイを目指しています。
我々のテストでは、AlphaZeroのGo以外のゲームへの適応性を示す。
MCTSは複雑なシナリオ、特にボードゲームにおける決定プロセスの主要なアルゴリズムとなっている。
MCTSは潜在的な将来の行動を調べて探索木を作成し、ランダムサンプリングを用いて可能な結果を予測する。
AlphaZeroのテクニックは、両方の世界の長所を活用することによって、強化学習から深層学習をMCTSのバランス行為と融合させ、ゲームプレイングAIの新たな標準を確立する。
その勝利は、go、チェス、shogiなどのボードゲームで顕著である。
関連論文リスト
- MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games [9.339645051415115]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - Exploring Adaptive MCTS with TD Learning in miniXCOM [0.0]
本研究では,モンテカルロ木探索(MCTS)におけるオンライン適応性について,事前学習を必要とせずに検討する。
時間差学習により改良された適応MCTSアルゴリズムMCTS-TDを提案する。
我々は,ターンベースの戦術ゲームからなる人気商業フランチャイズである miniXCOM に対して,我々の新しいアプローチを実証する。
論文 参考訳(メタデータ) (2022-10-10T21:04:25Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative
Board Games [0.0]
本稿では,Terra Mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索し,比較する。
これらのブレークスルーをTMの新しい状態表現に適用し、人間のプレイヤーに匹敵するAIを作ることを目指しています。
最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。
論文 参考訳(メタデータ) (2021-02-21T07:53:34Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。