論文の概要: Polygames: Improved Zero Learning
- arxiv url: http://arxiv.org/abs/2001.09832v1
- Date: Mon, 27 Jan 2020 14:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:40:06.749506
- Title: Polygames: Improved Zero Learning
- Title(参考訳): Polygames: ゼロラーニングの改善
- Authors: Tristan Cazenave, Yen-Chi Chen, Guan-Wei Chen, Shi-Yu Chen, Xian-Dong
Chiu, Julien Dehos, Maria Elsa, Qucheng Gong, Hengyuan Hu, Vasil Khalidov,
Cheng-Ling Li, Hsin-I Lin, Yu-Jin Lin, Xavier Martinet, Vegard Mella, Jeremy
Rapin, Baptiste Roziere, Gabriel Synnaeve, Fabien Teytaud, Olivier Teytaud,
Shi-Cheng Ye, Yi-Jun Ye, Shi-Jim Yen, Sergey Zagoruyko
- Abstract要約: DeepMindのAlphaZero以来、ゼロラーニングは多くのボードゲームで最先端の手法となった。
ゲームライブラリとチェックポイントを備えた,ゼロ学習のためのフレームワークであるPolygamesをリリースする。
私たちは1919年のヘックスの試合で強い人間と対戦しました。
- 参考スコア(独自算出の注目度): 21.114734326593002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since DeepMind's AlphaZero, Zero learning quickly became the state-of-the-art
method for many board games. It can be improved using a fully convolutional
structure (no fully connected layer). Using such an architecture plus global
pooling, we can create bots independent of the board size. The training can be
made more robust by keeping track of the best checkpoints during the training
and by training against them. Using these features, we release Polygames, our
framework for Zero learning, with its library of games and its checkpoints. We
won against strong humans at the game of Hex in 19x19, which was often said to
be untractable for zero learning; and in Havannah. We also won several first
places at the TAAI competitions.
- Abstract(参考訳): deepmindのalphazero以降、zero learningは多くのボードゲームで最先端の手法となった。
完全畳み込み構造(完全連結層を持たない)を用いて改善することができる。
このようなアーキテクチャとグローバルプールを使うことで、ボードサイズに依存しないボットを作成できるのです。
トレーニング中に最高のチェックポイントを追跡し、それに対するトレーニングを行うことで、トレーニングをより堅牢にすることができる。
これらの機能を用いて,ゲームライブラリとチェックポイントを備えたゼロ学習フレームワークであるPolygamesをリリースする。
私たちは19x19のhexゲームで強い人間に勝った。
TAAIコンクールでもいくつかの初優勝を飾った。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games [9.339645051415115]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Train on Small, Play the Large: Scaling Up Board Games with AlphaZero
and GNN [23.854093182195246]
ボードゲームをするのは、人間とAI研究者の両方にとって大きな課題だと考えられている。
この研究では、ボードをグラフとして見て、AlphaZeroフレームワーク内でグラフニューラルネットワークアーキテクチャを組み合わせる。
私たちのモデルは、ドメイン知識を使わずに、複数のボードサイズで異なる挑戦的なボードゲームをプレイするように、迅速にトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-18T08:36:00Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。