論文の概要: AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.03526v1
- Date: Mon, 7 Aug 2023 12:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:53:13.199199
- Title: AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning
- Title(参考訳): alphastar unplugged:大規模オフライン強化学習
- Authors: Micha\"el Mathieu, Sherjil Ozair, Srivatsan Srinivasan, Caglar
Gulcehre, Shangtong Zhang, Ray Jiang, Tom Le Paine, Richard Powell, Konrad
\.Zo{\l}na, Julian Schrittwieser, David Choi, Petko Georgiev, Daniel Toyama,
Aja Huang, Roman Ring, Igor Babuschkin, Timo Ewalds, Mahyar Bordbar, Sarah
Henderson, Sergio G\'omez Colmenarejo, A\"aron van den Oord, Wojciech Marian
Czarnecki, Nando de Freitas, Oriol Vinyals
- Abstract要約: StarCraft IIは、最も難しいシミュレーションされた強化学習環境の1つである。
Blizzardは、人間のプレーヤーがプレイする何百万ものStarCraft IIゲームの大規模なデータセットをリリースした。
データセット(Blizzardのリリースのサブセット)、マシンラーニングメソッドのAPIを標準化するツール、評価プロトコルを定義します。
- 参考スコア(独自算出の注目度): 38.75717733273262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: StarCraft II is one of the most challenging simulated reinforcement learning
environments; it is partially observable, stochastic, multi-agent, and
mastering StarCraft II requires strategic planning over long time horizons with
real-time low-level execution. It also has an active professional competitive
scene. StarCraft II is uniquely suited for advancing offline RL algorithms,
both because of its challenging nature and because Blizzard has released a
massive dataset of millions of StarCraft II games played by human players. This
paper leverages that and establishes a benchmark, called AlphaStar Unplugged,
introducing unprecedented challenges for offline reinforcement learning. We
define a dataset (a subset of Blizzard's release), tools standardizing an API
for machine learning methods, and an evaluation protocol. We also present
baseline agents, including behavior cloning, offline variants of actor-critic
and MuZero. We improve the state of the art of agents using only offline data,
and we achieve 90% win rate against previously published AlphaStar behavior
cloning agent.
- Abstract(参考訳): StarCraft IIは、部分的に観察可能で、確率的で、マルチエージェントであり、マスターするには、リアルタイムの低レベル実行を伴う長期間にわたる戦略的な計画が必要である。
プロとしても活躍している。
StarCraft IIは、その難しい性質と、Blizzardが人間のプレイヤーがプレイする数百万のStarCraft IIゲームの巨大なデータセットをリリースしたため、オフラインのRLアルゴリズムの進行に特化している。
そこで本論文では,AlphaStar Unpluggedと呼ばれるベンチマークを構築し,オフライン強化学習における前例のない課題を紹介した。
データセット(blizzardのリリースの一部分)、機械学習メソッドのapiを標準化するツール、評価プロトコルを定義する。
また,行動クローン,アクタ-クリティックおよびミューゼロのオフライン変異など,ベースラインエージェントも提示する。
オフラインデータのみを使用してエージェントの状態を改善し、以前公開されたalphastar行動クローニングエージェントに対して90%の勝利率を達成した。
関連論文リスト
- Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks [59.50879251101105]
我々は、オフラインのRLとオフラインのMARLをカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。
このデータは、Multiplayer Online Battle Arena(MOBA)ゲームとして認知されているHonor of Kingsに由来する。
また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-20T05:38:50Z) - Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach [7.693497788883165]
VoyageやMetaGPTのような大規模言語モデル(LLM)エージェントは、複雑なタスクを解く大きな可能性を示す。
本稿では,生観測処理のための単一フレーム要約と,ゲーム情報解析のための多フレーム要約を含む要約手法を提案する。
1. LLMはStarCraft IIのシナリオに対処するのに必要な知識と複雑な計画能力を持っている; 2. 人間の専門家は、LLMエージェントのパフォーマンスは、StarCraft IIを8年間プレイした平均的なプレイヤーのそれに近いと考えている; 3. LLMエージェントはAIで構築されたエージェントを倒すことができる。
論文 参考訳(メタデータ) (2023-12-19T05:27:16Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - On Efficient Reinforcement Learning for Full-length Game of StarCraft II [21.768578136029987]
本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。
64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。
我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
論文 参考訳(メタデータ) (2022-09-23T12:24:21Z) - Applying supervised and reinforcement learning methods to create
neural-network-based agents for playing StarCraft II [0.0]
本稿では,汎用的な教師付き強化学習でトレーニングしたStarCraft IIのフル2プレーヤマッチングを実現するニューラルネットワークアーキテクチャを提案する。
本実装では,ゲーム内スクリプトボットと比較して,非自明な性能を実現している。
論文 参考訳(メタデータ) (2021-09-26T20:08:10Z) - SCC: an efficient deep reinforcement learning agent mastering the game
of StarCraft II [15.612456049715123]
AlphaStarは、StarCraft IIのGrandMasterレベルに達するAIであり、深い強化学習が達成できることを示す驚くべきマイルストーンです。
我々は、深層強化学習エージェント、StarCraft Commander (SCC)を提案する。
SCCは、テストマッチでグランドマスタープレーヤーを倒し、ライブイベントでトッププロフェッショナルプレーヤーを倒す人間のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2020-12-24T08:43:44Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - TStarBot-X: An Open-Sourced and Comprehensive Study for Efficient League
Training in StarCraft II Full Game [25.248034258354533]
最近、GoogleのDeepMindは、StarCraft IIのグランドマスターレベルのAIであるAlphaStarを発表した。
本稿では,TStarBot-XというAIエージェントを導入する。このエージェントはより少ない計算量で訓練され,熟練した人間プレイヤーと競争できる。
論文 参考訳(メタデータ) (2020-11-27T13:31:49Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。