論文の概要: Train on Small, Play the Large: Scaling Up Board Games with AlphaZero
and GNN
- arxiv url: http://arxiv.org/abs/2107.08387v1
- Date: Sun, 18 Jul 2021 08:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:17:31.316660
- Title: Train on Small, Play the Large: Scaling Up Board Games with AlphaZero
and GNN
- Title(参考訳): 小規模なトレーニングと大規模プレイ - alphazeroとgnnによるボードゲームをスケールアップ
- Authors: Shai Ben-Assayag, Ran El-Yaniv
- Abstract要約: ボードゲームをするのは、人間とAI研究者の両方にとって大きな課題だと考えられている。
この研究では、ボードをグラフとして見て、AlphaZeroフレームワーク内でグラフニューラルネットワークアーキテクチャを組み合わせる。
私たちのモデルは、ドメイン知識を使わずに、複数のボードサイズで異なる挑戦的なボードゲームをプレイするように、迅速にトレーニングすることができます。
- 参考スコア(独自算出の注目度): 23.854093182195246
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Playing board games is considered a major challenge for both humans and AI
researchers. Because some complicated board games are quite hard to learn,
humans usually begin with playing on smaller boards and incrementally advance
to master larger board strategies. Most neural network frameworks that are
currently tasked with playing board games neither perform such incremental
learning nor possess capabilities to automatically scale up. In this work, we
look at the board as a graph and combine a graph neural network architecture
inside the AlphaZero framework, along with some other innovative improvements.
Our ScalableAlphaZero is capable of learning to play incrementally on small
boards, and advancing to play on large ones. Our model can be trained quickly
to play different challenging board games on multiple board sizes, without
using any domain knowledge. We demonstrate the effectiveness of
ScalableAlphaZero and show, for example, that by training it for only three
days on small Othello boards, it can defeat the AlphaZero model on a large
board, which was trained to play the large board for $30$ days.
- Abstract(参考訳): ボードゲームをするのは、人間とAI研究者の両方にとって大きな課題だと考えられている。
複雑なボードゲームは学ぶのは非常に難しいため、人間は通常、小さなボードでプレーすることから始まり、より大きなボード戦略を徐々に習得する。
現在ボードゲームをしているほとんどのニューラルネットワークフレームワークは、このような漸進的な学習も、自動スケールアップ機能を持たない。
この研究では、ボードをグラフとして見て、AlphaZeroフレームワーク内のグラフニューラルネットワークアーキテクチャと、その他の革新的な改善点を組み合わせる。
scalablealphazeroは小さなボード上でインクリメンタルにプレイすることを学び、大きなボードでプレイすることを進めることができます。
私たちのモデルは、ドメイン知識を使わずに、複数のボードサイズで異なる挑戦的なボードゲームをプレイするように、迅速にトレーニングすることができます。
scalablealphazeroの有効性を実証し、例えば、小さなothelloボード上でわずか3日間トレーニングすることで、大きなボード上でalphazeroモデルを破ることができることを示した。
関連論文リスト
- Enhancing Chess Reinforcement Learning with Graph Representation [21.919003715442074]
グラフニューラルネットワーク(GNN)に基づくより一般的なアーキテクチャを導入する。
この新しいアーキテクチャは、同じ数のパラメータで以前のアーキテクチャより優れていることを示す。
また、より小さな5倍のチェスでトレーニングすると、通常の8倍のチェスでプレイできるように素早く微調整できることも示しています。
論文 参考訳(メタデータ) (2024-10-31T09:18:47Z) - Instruction-Driven Game Engines on Large Language Models [59.280666591243154]
IDGEプロジェクトは、大規模な言語モデルが自由形式のゲームルールに従うことを可能にすることで、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオに対するモデルの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
私たちの最初の進歩は、汎用的なカードゲームであるPoker用のIDGEを開発することです。
論文 参考訳(メタデータ) (2024-03-30T08:02:16Z) - Fast and Knowledge-Free Deep Learning for General Game Playing (Student
Abstract) [1.9750759888062657]
我々は,AlphaZeroモデルを汎用ゲームプレイング(GGP)に適用する手法を開発した。
データセット生成は、セルフプレイの代わりにMCTSを使用しており、バリューネットワークのみを使用し、アテンション層が畳み込み層を置き換える。
論文 参考訳(メタデータ) (2023-12-21T18:44:19Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Polygames: Improved Zero Learning [21.114734326593002]
DeepMindのAlphaZero以来、ゼロラーニングは多くのボードゲームで最先端の手法となった。
ゲームライブラリとチェックポイントを備えた,ゼロ学習のためのフレームワークであるPolygamesをリリースする。
私たちは1919年のヘックスの試合で強い人間と対戦しました。
論文 参考訳(メタデータ) (2020-01-27T14:49:49Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。