論文の概要: On Efficient Reinforcement Learning for Full-length Game of StarCraft II
- arxiv url: http://arxiv.org/abs/2209.11553v1
- Date: Fri, 23 Sep 2022 12:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:34:01.007146
- Title: On Efficient Reinforcement Learning for Full-length Game of StarCraft II
- Title(参考訳): StarCraftの完全長ゲームにおける効率的な強化学習についてII
- Authors: Ruo-Ze Liu, Zhen-Jia Pang, Zhou-Yu Meng, Wenhai Wang, Yang Yu, Tong Lu
- Abstract要約: 本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。
64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。
我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
- 参考スコア(独自算出の注目度): 21.768578136029987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: StarCraft II (SC2) poses a grand challenge for reinforcement learning (RL),
of which the main difficulties include huge state space, varying action space,
and a long time horizon. In this work, we investigate a set of RL techniques
for the full-length game of StarCraft II. We investigate a hierarchical RL
approach involving extracted macro-actions and a hierarchical architecture of
neural networks. We investigate a curriculum transfer training procedure and
train the agent on a single machine with 4 GPUs and 48 CPU threads. On a 64x64
map and using restrictive units, we achieve a win rate of 99% against the
level-1 built-in AI. Through the curriculum transfer learning algorithm and a
mixture of combat models, we achieve a 93% win rate against the most difficult
non-cheating level built-in AI (level-7). In this extended version of the
paper, we improve our architecture to train the agent against the cheating
level AIs and achieve the win rate against the level-8, level-9, and level-10
AIs as 96%, 97%, and 94%, respectively. Our codes are at
https://github.com/liuruoze/HierNet-SC2. To provide a baseline referring the
AlphaStar for our work as well as the research and open-source community, we
reproduce a scaled-down version of it, mini-AlphaStar (mAS). The latest version
of mAS is 1.07, which can be trained on the raw action space which has 564
actions. It is designed to run training on a single common machine, by making
the hyper-parameters adjustable. We then compare our work with mAS using the
same resources and show that our method is more effective. The codes of
mini-AlphaStar are at https://github.com/liuruoze/mini-AlphaStar. We hope our
study could shed some light on the future research of efficient reinforcement
learning on SC2 and other large-scale games.
- Abstract(参考訳): starcraft ii (sc2)は強化学習(rl)にとって大きな課題であり、その主な課題は巨大な状態空間、様々な行動空間、そして長い時間地平線である。
本稿では,StarCraft IIのフル長ゲームにおけるRL手法のセットについて検討する。
抽出されたマクロアクションとニューラルネットワークの階層的アーキテクチャを含む階層的rlアプローチについて検討する。
カリキュラム転送訓練手順を調査し、4つのGPUと48のCPUスレッドを持つ1台のマシン上でエージェントを訓練する。
64x64マップと制限単位を用いて、レベル1組み込みAIに対して99%の勝利率を達成する。
カリキュラム転送学習アルゴリズムと戦闘モデルの混合により、最も難しい非指導レベルのai(level-7)に対して93%の勝利率を達成した。
この拡張版では、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、私たちのアーキテクチャを改善します。
私たちのコードはhttps://github.com/liuruoze/HierNet-SC2にあります。
研究とオープンソースコミュニティの両方でAlphaStarを参考にしたベースラインを提供するため、スケールダウンしたバージョンのmini-AlphaStar(mAS)を再現する。
最新バージョンのmASは1.07であり、564アクションを持つ生のアクション空間でトレーニングすることができる。
ハイパーパラメータを調整可能にすることで、単一の共通マシン上でトレーニングを実行するように設計されている。
次に、同じリソースを使用してmASと比較し、我々の方法がより効果的であることを示す。
mini-AlphaStarのコードはhttps://github.com/liuruoze/mini-AlphaStarにある。
SC2や他の大規模ゲームにおける効率的な強化学習の今後の研究に光を当てることが期待できる。
関連論文リスト
- Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning [38.75717733273262]
StarCraft IIは、最も難しいシミュレーションされた強化学習環境の1つである。
Blizzardは、人間のプレーヤーがプレイする何百万ものStarCraft IIゲームの大規模なデータセットをリリースした。
データセット(Blizzardのリリースのサブセット)、マシンラーニングメソッドのAPIを標準化するツール、評価プロトコルを定義します。
論文 参考訳(メタデータ) (2023-08-07T12:21:37Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Applying supervised and reinforcement learning methods to create
neural-network-based agents for playing StarCraft II [0.0]
本稿では,汎用的な教師付き強化学習でトレーニングしたStarCraft IIのフル2プレーヤマッチングを実現するニューラルネットワークアーキテクチャを提案する。
本実装では,ゲーム内スクリプトボットと比較して,非自明な性能を実現している。
論文 参考訳(メタデータ) (2021-09-26T20:08:10Z) - An Introduction of mini-AlphaStar [22.820438931820764]
AlphaStarと呼ばれるSC2エージェントは優れた性能を示し、グランドマスターレベルの人間選手に対して99.8%の勝利率を得る。
論文と擬似コードに基づいてミニアルファスターと呼ばれるミニスケール版を実装した。
mini-AlphaStarの目的は、オリジナルのAlphaStarの複製を提供し、大規模な問題に関するRLの将来の研究を促進することです。
論文 参考訳(メタデータ) (2021-04-14T14:31:51Z) - SCC: an efficient deep reinforcement learning agent mastering the game
of StarCraft II [15.612456049715123]
AlphaStarは、StarCraft IIのGrandMasterレベルに達するAIであり、深い強化学習が達成できることを示す驚くべきマイルストーンです。
我々は、深層強化学習エージェント、StarCraft Commander (SCC)を提案する。
SCCは、テストマッチでグランドマスタープレーヤーを倒し、ライブイベントでトッププロフェッショナルプレーヤーを倒す人間のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2020-12-24T08:43:44Z) - TStarBot-X: An Open-Sourced and Comprehensive Study for Efficient League
Training in StarCraft II Full Game [25.248034258354533]
最近、GoogleのDeepMindは、StarCraft IIのグランドマスターレベルのAIであるAlphaStarを発表した。
本稿では,TStarBot-XというAIエージェントを導入する。このエージェントはより少ない計算量で訓練され,熟練した人間プレイヤーと競争できる。
論文 参考訳(メタデータ) (2020-11-27T13:31:49Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。