論文の概要: Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative
Board Games
- arxiv url: http://arxiv.org/abs/2102.10540v1
- Date: Sun, 21 Feb 2021 07:53:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 19:07:40.148111
- Title: Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative
Board Games
- Title(参考訳): Mastering Terra Mystica: マルチエージェント協調ボードゲームに自己再生を適用する
- Authors: Luis Perez
- Abstract要約: 本稿では,Terra Mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索し,比較する。
これらのブレークスルーをTMの新しい状態表現に適用し、人間のプレイヤーに匹敵するAIを作ることを目指しています。
最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore and compare multiple algorithms for solving the
complex strategy game of Terra Mystica, hereafter abbreviated as TM. Previous
work in the area of super-human game-play using AI has proven effective, with
recent break-through for generic algorithms in games such as Go, Chess, and
Shogi \cite{AlphaZero}. We directly apply these breakthroughs to a novel
state-representation of TM with the goal of creating an AI that will rival
human players. Specifically, we present the initial results of applying
AlphaZero to this state-representation and analyze the strategies developed. A
brief analysis is presented. We call this modified algorithm with our novel
state-representation AlphaTM. In the end, we discuss the success and
shortcomings of this method by comparing against multiple baselines and typical
human scores. All code used for this paper is available at on
\href{https://github.com/kandluis/terrazero}{GitHub}.
- Abstract(参考訳): 本稿では,terra mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索・比較し,以下tmと略す。
これまでAIを用いたスーパーヒューマンゲームプレイの分野では、Go、Chess、Shogi \cite{AlphaZero}などのゲームにおけるジェネリックアルゴリズムのブレークスルーが有効であることが証明されています。
われわれはこれらのブレークスルーを直接、人間のプレイヤーと競合するAIを作成することを目的として、TMの新たな国家表現に適用する。
具体的には,この状態表現にalphazeroを適用する最初の結果を示し,その戦略を分析する。
簡単な分析がなされた。
我々はこの修正アルゴリズムを新しい状態表現型アルファtmと呼ぶ。
最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。
この論文で使用されるすべてのコードは、 \href{https://github.com/kandluis/terrazero}{GitHub} で入手できる。
関連論文リスト
- AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Generalised agent for solving higher board states of tic tac toe using
Reinforcement Learning [0.0]
本研究の目的は, 短時間で正確な移動を行うため, 高位板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板
そのアイデアは、よく考えられた学習問題として、ティック・タック・トイ・ゲーム(tic tac toe game)を取り入れることだ。
研究とその成果は有望であり、トレーニングの各エポックに比例して高い勝利を与える。
論文 参考訳(メタデータ) (2022-12-23T10:58:27Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。