論文の概要: AlphaViT: A Flexible Game-Playing AI for Multiple Games and Variable Board Sizes
- arxiv url: http://arxiv.org/abs/2408.13871v2
- Date: Fri, 29 Nov 2024 07:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:26.347805
- Title: AlphaViT: A Flexible Game-Playing AI for Multiple Games and Variable Board Sizes
- Title(参考訳): AlphaViT: 複数のゲームやボードサイズに対応するフレキシブルなゲームプレイAI
- Authors: Kazuhisa Fujita,
- Abstract要約: ビジョントランスフォーマー(ViT):AlphaViT、AlphaViD、AlphaVDAで強化されたAlphaZeroフレームワークに基づく新しいゲームプレイングAIエージェント。
これらのエージェントは、共有重み付き単一のネットワークを使用して、さまざまなサイズの複数のボードゲームをプレイするように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents novel game-playing AI agents based on the AlphaZero framework, enhanced with Vision Transformer (ViT): AlphaViT, AlphaViD, and AlphaVDA. These agents are designed to play multiple board games of various sizes using a single network with shared weights, thereby overcoming AlphaZero's limitation of fixed-board-size constraints. AlphaViT employs only a transformer encoder, whereas AlphaViD and AlphaVDA incorporate both transformer encoders and decoders. In AlphaViD, the decoder processes outputs from the encoder, whereas AlphaVDA uses a learnable embeddings as the decoder input. The additional decoder layers in AlphaViD and AlphaVDA provide flexibility to adapt to various action spaces and board sizes. Experimental results show that the proposed agents, trained on either individual games or multiple games simultaneously, consistently outperform traditional algorithms such as Minimax and Monte Carlo Tree Search and approach the performance of AlphaZero, despite using a single deep neural network (DNN) with shared weights. In particular, AlphaViT shows strong performance across all tested games. Furthermore, fine-tuning the DNN using pre-trained weights from small-board games accelerates convergence and improves performance, particularly in Gomoku. Interestingly, simultaneous training on multiple games yields performance comparable to, or even surpassing, single-game training. These results indicate the potential of transformer-based architectures to develop more flexible and robust game-playing AI agents that excel in multiple games and dynamic environments.
- Abstract(参考訳): 本稿では、AlphaViT、AlphaViD、AlphaVDAといったビジョントランスフォーマー(ViT)で強化されたAlphaZeroフレームワークに基づく新しいゲームプレイングAIエージェントを提案する。
これらのエージェントは、共通の重みを持つ1つのネットワークを使用して、様々なサイズのボードゲームをプレイするように設計されており、したがって、AlphaZeroの固定板サイズの制約を克服する。
AlphaViTはトランスフォーマーエンコーダのみを使用するが、AlphaViDとAlphaVDAはトランスフォーマーエンコーダとデコーダの両方を組み込んでいる。
AlphaViDでは、デコーダはエンコーダから出力するが、AlphaVDAはデコーダの入力として学習可能な埋め込みを使用する。
AlphaViDとAlphaVDAのデコーダレイヤは、さまざまなアクションスペースやボードサイズに対応する柔軟性を提供する。
実験の結果、提案エージェントは個々のゲームまたは複数のゲームで同時にトレーニングされ、MinimaxやMonte Carlo Tree Searchといった従来のアルゴリズムより一貫して優れており、共有重み付き1つのディープニューラルネットワーク(DNN)を使用してもAlphaZeroのパフォーマンスに近づいていることがわかった。
特に、AlphaViTは全テストゲームで強力なパフォーマンスを示している。
さらに,小型ボードゲームからの事前学習重量を用いたDNNの微調整により,収束が加速し,特に五目では性能が向上する。
興味深いことに、複数のゲームでの同時トレーニングは、シングルゲームトレーニングに匹敵する、あるいは超えるパフォーマンスをもたらす。
これらの結果は、より柔軟で堅牢なゲームプレイングAIエージェントを開発するためのトランスフォーマーベースのアーキテクチャの可能性を示している。
関連論文リスト
- Representation Matters for Mastering Chess: Improved Feature Representation in AlphaZero Outperforms Switching to Transformers [18.347534843178355]
ビジョントランスフォーマー(ViT)はチェスの習得には不十分である。
本稿では、入力表現と値損失関数の簡単な変更を含む実用的な改善を提案する。
その結果、チェスにおいて現在AlphaZeroで達成可能なものを超え、最大180エロポイントの大幅なパフォーマンス向上を実現した。
論文 参考訳(メタデータ) (2023-04-28T15:33:39Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Train on Small, Play the Large: Scaling Up Board Games with AlphaZero
and GNN [23.854093182195246]
ボードゲームをするのは、人間とAI研究者の両方にとって大きな課題だと考えられている。
この研究では、ボードをグラフとして見て、AlphaZeroフレームワーク内でグラフニューラルネットワークアーキテクチャを組み合わせる。
私たちのモデルは、ドメイン知識を使わずに、複数のボードサイズで異なる挑戦的なボードゲームをプレイするように、迅速にトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-18T08:36:00Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Warm-Start AlphaZero Self-Play Search Enhancements [5.096685900776467]
近年、AlphaZeroは深い強化学習において目覚ましい成果を上げている。
本稿では,この冷間開始問題に対して,簡単な探索拡張を用いて対処する手法を提案する。
実験の結果,3つの異なる(小さな)ボードゲームにおけるベースラインプレーヤのパフォーマンスが向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-26T11:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。