Fugu-MT 論文翻訳(概要): AlphaZero-Inspired General Board Game Learning and Playing

論文の概要: AlphaZero-Inspired General Board Game Learning and Playing

arxiv url: http://arxiv.org/abs/2204.13307v1
Date: Thu, 28 Apr 2022 07:04:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-29 12:44:05.248484
Title: AlphaZero-Inspired General Board Game Learning and Playing
Title（参考訳）: AlphaZeroによるゲーム学習とプレイ
Authors: Johannes Scheiermann and Wolfgang Konen
Abstract要約: 最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recently, the seminal algorithms AlphaGo and AlphaZero have started a new era in game learning and deep reinforcement learning. While the achievements of AlphaGo and AlphaZero - playing Go and other complex games at super human level - are truly impressive, these architectures have the drawback that they are very complex and require high computational resources. Many researchers are looking for methods that are similar to AlphaZero, but have lower computational demands and are thus more easily reproducible. In this paper, we pick an important element of AlphaZero - the Monte Carlo Tree Search (MCTS) planning stage - and combine it with reinforcement learning (RL) agents. We wrap MCTS for the first time around RL n-tuple networks to create versatile agents that keep at the same time the computational demands low. We apply this new architecture to several complex games (Othello, ConnectFour, Rubik's Cube) and show the advantages achieved with this AlphaZero-inspired MCTS wrapper. In particular, we present results that this AlphaZero-inspired agent is the first one trained on standard hardware (no GPU or TPU) to beat the very strong Othello program Edax up to and including level 7 (where most other algorithms could only defeat Edax up to level 2).
Abstract（参考訳）: 最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。 alphagoとalphazero – goやその他の複雑なゲームをスーパーヒューマンレベルでプレイする – の成果は実に印象的ですが、これらのアーキテクチャは、非常に複雑で高い計算リソースを必要とするという欠点を持っています。多くの研究者がAlphaZeroに類似しているが、計算要求が低く、再現が容易な方法を探している。本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。 MCTSを初めてRL n-tupleネットワークの周囲にラップし、計算要求の低さを同時に維持する汎用エージェントを作成する。我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。特に、このAlphaZeroにインスパイアされたエージェントは、非常に強力なOthelloプログラムであるEdaxを打ち負かし、レベル7(他のほとんどのアルゴリズムがEdaxをレベル2まで打ち負かすしかなかった)を含む、標準的なハードウェア(GPUやTPUを使わない)でトレーニングされた最初のエージェントであることを示す。

関連論文リスト

DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。 AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文参考訳（メタデータ） (2023-12-05T08:07:32Z)
Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文参考訳（メタデータ） (2023-10-07T13:09:37Z)
AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文参考訳（メタデータ） (2023-09-04T00:20:06Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。 Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。 Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文参考訳（メタデータ） (2023-02-23T22:50:24Z)
On Efficient Reinforcement Learning for Full-length Game of StarCraft II [21.768578136029987]
本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。 64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
論文参考訳（メタデータ） (2022-09-23T12:24:21Z)
Neural Networks for Chess [2.055949720959582]
AlphaZero、Leela Chess Zero、Stockfish NNUEはコンピュータチェスに革命をもたらした。この本は、そのようなエンジンの技術的な内部動作について、完全な紹介を行っている。
論文参考訳（メタデータ） (2022-09-03T22:17:16Z)
An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文参考訳（メタデータ） (2022-07-02T23:39:45Z)
Final Adaptation Reinforcement Learning for N-Player Games [0.0]
本稿では,n-tuple-based reinforcement learning (RL)アルゴリズムについて述べる。本稿では,TD-,SARSA-およびQ-ラーニングのための新しいアルゴリズムを提案する。これらのアルゴリズムにFinal Adaptation RL(FARL)と呼ばれる新しい要素を追加します。
論文参考訳（メタデータ） (2021-11-29T08:36:39Z)
Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文参考訳（メタデータ） (2021-04-17T20:33:24Z)
Warm-Start AlphaZero Self-Play Search Enhancements [5.096685900776467]
近年、AlphaZeroは深い強化学習において目覚ましい成果を上げている。本稿では,この冷間開始問題に対して,簡単な探索拡張を用いて対処する手法を提案する。実験の結果,3つの異なる(小さな)ボードゲームにおけるベースラインプレーヤのパフォーマンスが向上することが示唆された。
論文参考訳（メタデータ） (2020-04-26T11:48:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。