論文の概要: An Introduction of mini-AlphaStar
- arxiv url: http://arxiv.org/abs/2104.06890v1
- Date: Wed, 14 Apr 2021 14:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:22:29.393596
- Title: An Introduction of mini-AlphaStar
- Title(参考訳): ミニアルファスターの紹介
- Authors: Ruo-Ze Liu, Wenhai Wang, Yanjie Shen, Zhiqi Li, Yang Yu, Tong Lu
- Abstract要約: AlphaStarと呼ばれるSC2エージェントは優れた性能を示し、グランドマスターレベルの人間選手に対して99.8%の勝利率を得る。
論文と擬似コードに基づいてミニアルファスターと呼ばれるミニスケール版を実装した。
mini-AlphaStarの目的は、オリジナルのAlphaStarの複製を提供し、大規模な問題に関するRLの将来の研究を促進することです。
- 参考スコア(独自算出の注目度): 22.820438931820764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: StarCraft II (SC2) is a real-time strategy game, in which players produce and
control multiple units to win. Due to its difficulties, such as huge state
space, various action space, a long time horizon, and imperfect information,
SC2 has been a research highlight in reinforcement learning research. Recently,
an SC2 agent called AlphaStar is proposed which shows excellent performance,
obtaining a high win-rates of 99.8% against Grandmaster level human players. We
implemented a mini-scaled version of it called mini-AlphaStar based on their
paper and the pseudocode they provided. The usage and analysis of it are shown
in this technical report. The difference between AlphaStar and mini-AlphaStar
is that we substituted the hyper-parameters in the former version with much
smaller ones for mini-scale training. The codes of mini-AlphaStar are all
open-sourced. The objective of mini-AlphaStar is to provide a reproduction of
the original AlphaStar and facilitate the future research of RL on large-scale
problems.
- Abstract(参考訳): StarCraft II (SC2) は、プレイヤーが複数のユニットを生産し、制御するリアルタイム戦略ゲームである。
巨大な状態空間、様々な行動空間、長期間の地平線、不完全な情報などの困難さから、SC2は強化学習研究における研究のハイライトとなっている。
近年,AlphaStarと呼ばれるSC2エージェントは優れた性能を示し,グランドマスターレベルの人間選手に対して99.8%の勝利率を得た。
論文と擬似コードに基づいてミニアルファスターと呼ばれるミニスケール版を実装した。
本技術報告では,その利用と分析について述べる。
AlphaStarとMini-AlphaStarの違いは、以前のバージョンのハイパーパラメータをミニスケールのトレーニング用にずっと小さいものに置き換えたことです。
mini-alphastarのコードはすべてオープンソースである。
mini-alphastarの目的は、オリジナルのalphastarの複製を提供し、大規模な問題に対するrlの今後の研究を容易にすることである。
関連論文リスト
- Rewrite the Stars [70.48224347277014]
近年の研究では、ネットワーク設計における「スター操作」の未解決の可能性に注意が向けられている。
本研究は、高次元の非線形特徴空間に入力をマッピングする恒星操作の能力を明らかにすることを試みる。
StarNetはシンプルだがパワフルなプロトタイプで、素晴らしいパフォーマンスと低レイテンシを誇示しています。
論文 参考訳(メタデータ) (2024-03-29T04:10:07Z) - AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning [38.75717733273262]
StarCraft IIは、最も難しいシミュレーションされた強化学習環境の1つである。
Blizzardは、人間のプレーヤーがプレイする何百万ものStarCraft IIゲームの大規模なデータセットをリリースした。
データセット(Blizzardのリリースのサブセット)、マシンラーニングメソッドのAPIを標準化するツール、評価プロトコルを定義します。
論文 参考訳(メタデータ) (2023-08-07T12:21:37Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - On Efficient Reinforcement Learning for Full-length Game of StarCraft II [21.768578136029987]
本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。
64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。
我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
論文 参考訳(メタデータ) (2022-09-23T12:24:21Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - SCC: an efficient deep reinforcement learning agent mastering the game
of StarCraft II [15.612456049715123]
AlphaStarは、StarCraft IIのGrandMasterレベルに達するAIであり、深い強化学習が達成できることを示す驚くべきマイルストーンです。
我々は、深層強化学習エージェント、StarCraft Commander (SCC)を提案する。
SCCは、テストマッチでグランドマスタープレーヤーを倒し、ライブイベントでトッププロフェッショナルプレーヤーを倒す人間のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2020-12-24T08:43:44Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - TStarBot-X: An Open-Sourced and Comprehensive Study for Efficient League
Training in StarCraft II Full Game [25.248034258354533]
最近、GoogleのDeepMindは、StarCraft IIのグランドマスターレベルのAIであるAlphaStarを発表した。
本稿では,TStarBot-XというAIエージェントを導入する。このエージェントはより少ない計算量で訓練され,熟練した人間プレイヤーと競争できる。
論文 参考訳(メタデータ) (2020-11-27T13:31:49Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。