論文の概要: Flexible game-playing AI with AlphaViT: adapting to multiple games and board sizes
- arxiv url: http://arxiv.org/abs/2408.13871v1
- Date: Sun, 25 Aug 2024 15:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:42:00.367863
- Title: Flexible game-playing AI with AlphaViT: adapting to multiple games and board sizes
- Title(参考訳): AlphaViTによるフレキシブルゲームプレイAI - 複数のゲームやボードサイズに対応
- Authors: Kazuhisa Fujita,
- Abstract要約: 本稿では、AlphaViT、AlphaViD、AlphaVDAといったビジョントランスフォーマー(ViT)で強化されたAlphaZeroフレームワークに基づくゲームAIエージェントを提案する。
これらのエージェントは、1つのモデルを使用して様々なサイズのボードゲームをプレイするように設計されており、AlphaZeroの固定されたボードサイズに制限される制限を克服している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents novel game AI agents based on the AlphaZero framework, enhanced with Vision Transformers (ViT): AlphaViT, AlphaViD, and AlphaVDA. These agents are designed to play various board games of different sizes using a single model, overcoming AlphaZero's limitation of being restricted to a fixed board size. AlphaViT uses only a transformer encoder, while AlphaViD and AlphaVDA contain both an encoder and a decoder. AlphaViD's decoder receives input from the encoder output, while AlphaVDA uses a learnable matrix as decoder input. Using the AlphaZero framework, the three proposed methods demonstrate their versatility in different game environments, including Connect4, Gomoku, and Othello. Experimental results show that these agents, whether trained on a single game or on multiple games simultaneously, consistently outperform traditional algorithms such as Minimax and Monte Carlo tree search using a single DNN with shared weights, while approaching the performance of AlphaZero. In particular, AlphaViT and AlphaViD show strong performance across games, with AlphaViD benefiting from an additional decoder layer that enhances its ability to adapt to different action spaces and board sizes. These results may suggest the potential of transformer-based architectures to develop more flexible and robust game AI agents capable of excelling in multiple games and dynamic environments.
- Abstract(参考訳): 本稿では、AlphaViT、AlphaViD、AlphaVDAといったビジョントランスフォーマー(ViT)で強化されたAlphaZeroフレームワークに基づくゲームAIエージェントを提案する。
これらのエージェントは、1つのモデルを使用して様々なサイズのボードゲームをプレイするように設計されており、AlphaZeroの固定されたボードサイズに制限される制限を克服している。
AlphaViTはトランスフォーマーエンコーダのみを使用し、AlphaViDとAlphaVDAはエンコーダとデコーダの両方を含む。
AlphaViDのデコーダはエンコーダ出力から入力を受け取り、AlphaVDAはデコーダ入力として学習可能な行列を使用する。
AlphaZeroフレームワークを使用することで、Connect4、Gomoku、Othelloなど、さまざまなゲーム環境において、それらの汎用性を実証することができる。
実験の結果、これらのエージェントは1つのゲームまたは複数のゲームで同時にトレーニングされたとしても、AlphaZeroの性能に近づきながら、共有重みを持つ単一のDNNを用いてMinimaxやMonte Carloツリー探索のような従来のアルゴリズムより一貫して優れていた。
特にAlphaViTとAlphaViDはゲーム全体で強力なパフォーマンスを示しており、AlphaViDは異なるアクション空間やボードサイズに適応する能力を高めるデコーダレイヤーの恩恵を受けている。
これらの結果は、より柔軟で堅牢なゲームAIエージェントを開発するためのトランスフォーマーベースのアーキテクチャが、複数のゲームや動的環境において優れたものになる可能性を示唆している。
関連論文リスト
- Representation Matters for Mastering Chess: Improved Feature Representation in AlphaZero Outperforms Switching to Transformers [18.347534843178355]
ビジョントランスフォーマー(ViT)はチェスの習得には不十分である。
本稿では、入力表現と値損失関数の簡単な変更を含む実用的な改善を提案する。
その結果、チェスにおいて現在AlphaZeroで達成可能なものを超え、最大180エロポイントの大幅なパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2023-04-28T15:33:39Z) - Generative Multiplane Images: Making a 2D GAN 3D-Aware [108.47553058554612]
従来の2D GANであるStyleGANv2を可能な限り修正して,それを3D対応にしています。
1) 深度に条件付けされたアルファマップの集合を生成する多面体画像スタイルのジェネレータブランチ,2) ポーズ条件付き判別器。
生成した出力を「生成多面体画像」(GMPI)と呼び、そのレンダリングは高品質であるだけでなく、ビュー一貫性も保証されていることを強調する。
論文 参考訳(メタデータ) (2022-07-21T17:50:16Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - AlphaDDA: game artificial intelligence with dynamic difficulty
adjustment using AlphaZero [0.0]
AIプレイヤーは人間プレイヤーの相手として強すぎる。
人間のプレイヤーを楽しませるためには、AIプレイヤーは人間のプレイヤーと自動的にスキルのバランスをとる必要がある。
我々はAlphaZeroに基づく動的難易度調整を行うAIプレイヤーであるAlphaDDAを提案する。
論文 参考訳(メタデータ) (2021-11-11T15:15:52Z) - Train on Small, Play the Large: Scaling Up Board Games with AlphaZero
and GNN [23.854093182195246]
ボードゲームをするのは、人間とAI研究者の両方にとって大きな課題だと考えられている。
この研究では、ボードをグラフとして見て、AlphaZeroフレームワーク内でグラフニューラルネットワークアーキテクチャを組み合わせる。
私たちのモデルは、ドメイン知識を使わずに、複数のボードサイズで異なる挑戦的なボードゲームをプレイするように、迅速にトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-18T08:36:00Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Warm-Start AlphaZero Self-Play Search Enhancements [5.096685900776467]
近年、AlphaZeroは深い強化学習において目覚ましい成果を上げている。
本稿では,この冷間開始問題に対して,簡単な探索拡張を用いて対処する手法を提案する。
実験の結果,3つの異なる(小さな)ボードゲームにおけるベースラインプレーヤのパフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-26T11:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。