論文の概要: Gym-$\mu$RTS: Toward Affordable Full Game Real-time Strategy Games
Research with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.13807v1
- Date: Fri, 21 May 2021 20:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 08:52:43.763187
- Title: Gym-$\mu$RTS: Toward Affordable Full Game Real-time Strategy Games
Research with Deep Reinforcement Learning
- Title(参考訳): Gym-$\mu$RTS:Deep Reinforcement Learningを用いたフルゲームリアルタイム戦略ゲーム研究に向けて
- Authors: Shengyi Huang, Santiago Onta\~n\'on, Chris Bamford, Lukasz Grela
- Abstract要約: Gym-$mu$RTS をフルゲーム RTS 研究のための高速実行 RL 環境として紹介する。
DRLをスケールしてフルゲームの$mu$RTSをプレイするためのテクニックのコレクションを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, researchers have achieved great success in applying Deep
Reinforcement Learning (DRL) algorithms to Real-time Strategy (RTS) games,
creating strong autonomous agents that could defeat professional players in
StarCraft~II. However, existing approaches to tackle full games have high
computational costs, usually requiring the use of thousands of GPUs and CPUs
for weeks. This paper has two main contributions to address this issue: 1) We
introduce Gym-$\mu$RTS (pronounced "gym-micro-RTS") as a fast-to-run RL
environment for full-game RTS research and 2) we present a collection of
techniques to scale DRL to play full-game $\mu$RTS as well as ablation studies
to demonstrate their empirical importance. Our best-trained bot can defeat
every $\mu$RTS bot we tested from the past $\mu$RTS competitions when working
in a single-map setting, resulting in a state-of-the-art DRL agent while only
taking about 60 hours of training using a single machine (one GPU, three vCPU,
16GB RAM).
- Abstract(参考訳): 近年、研究者はリアルタイム戦略(RTS)ゲームにDeep Reinforcement Learning (DRL)アルゴリズムを適用することに成功し、StarCraft〜IIのプロのプレイヤーを倒す強力な自律エージェントを生み出している。
しかし、フルゲームに取り組む既存のアプローチは計算コストが高く、通常、数週間に数千のGPUとCPUを使用する必要がある。
本稿では, フルゲームRTS研究のための高速実行RL環境として, 1) Gym-$\mu$RTS("gym-micro-RTS"と発音する)を導入し, 2) フルゲーム$\mu$RTSをプレイするためにDRLをスケールするためのテクニックのコレクションと, その経験的重要性を示すアブレーション研究を紹介する。
最高のトレーニングを受けたボットは、過去の$\mu$RTSコンペでテストしたすべての$\mu$RTSボットを倒すことができ、その結果、最先端のDRLエージェントとなり、1台のマシン(GPU1台、vCPU3台、RAM16GB)で60時間程度しかトレーニングできない。
関連論文リスト
- A Competition Winning Deep Reinforcement Learning Agent in microRTS [0.0]
RAISocketAIは、IEEE microRTSコンペティションで優勝した最初のDeep Reinforcement Learning (DRL)エージェントである。
パフォーマンス制約のないベンチマークでは、RAISocketAIは2つの以前の競争勝者を定期的に破った。
根本方針を反復的に微調整し、特定の地図に学習を移すことは、RAISocketAIの勝利に不可欠であった。
論文 参考訳(メタデータ) (2024-02-12T23:08:17Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Technical Challenges of Deploying Reinforcement Learning Agents for Game
Testing in AAA Games [58.720142291102135]
本稿では,既存の自動ゲームテストソリューションに,スクリプト型ボットをベースとして,実験的な強化学習システムを追加する取り組みについて述べる。
ゲーム制作において強化学習を活用するためのユースケースを示し、ゲームのために同じ旅をしたいと思う人なら誰でも遭遇する最大の時間をカバーしています。
我々は、機械学習、特にゲーム生産において効果的なツールである強化学習を作るのに価値があり、必要であると考えるいくつかの研究指針を提案する。
論文 参考訳(メタデータ) (2023-07-19T18:19:23Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - On Efficient Reinforcement Learning for Full-length Game of StarCraft II [21.768578136029987]
本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。
64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。
我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
論文 参考訳(メタデータ) (2022-09-23T12:24:21Z) - Applying supervised and reinforcement learning methods to create
neural-network-based agents for playing StarCraft II [0.0]
本稿では,汎用的な教師付き強化学習でトレーニングしたStarCraft IIのフル2プレーヤマッチングを実現するニューラルネットワークアーキテクチャを提案する。
本実装では,ゲーム内スクリプトボットと比較して,非自明な性能を実現している。
論文 参考訳(メタデータ) (2021-09-26T20:08:10Z) - SCC: an efficient deep reinforcement learning agent mastering the game
of StarCraft II [15.612456049715123]
AlphaStarは、StarCraft IIのGrandMasterレベルに達するAIであり、深い強化学習が達成できることを示す驚くべきマイルストーンです。
我々は、深層強化学習エージェント、StarCraft Commander (SCC)を提案する。
SCCは、テストマッチでグランドマスタープレーヤーを倒し、ライブイベントでトッププロフェッショナルプレーヤーを倒す人間のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2020-12-24T08:43:44Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Deep RL Agent for a Real-Time Action Strategy Game [0.3867363075280543]
1対1のアクション戦略ゲームであるHeroic-Magic Duelをベースとした強化学習環境を導入する。
私たちの主な貢献は、競争レベルでゲームをする深層強化学習エージェントです。
私たちの最高のセルフプレイエージェントは、既存のAIに対して約65%の勝利率と、トップヒューマンプレイヤーに対して50%以上の勝利率を得ることができます。
論文 参考訳(メタデータ) (2020-02-15T01:09:56Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。