論文の概要: Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.15378v1
- Date: Thu, 30 Jun 2022 15:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 18:53:15.235960
- Title: Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning
- Title(参考訳): モデルフリーマルチエージェント強化学習によるストラテゴゲームのマスタリング
- Authors: Julien Perolat, Bart de Vylder, Daniel Hennes, Eugene Tarassov,
Florian Strub, Vincent de Boer, Paul Muller, Jerome T. Connor, Neil Burch,
Thomas Anthony, Stephen McAleer, Romuald Elie, Sarah H. Cen, Zhe Wang,
Audrunas Gruslys, Aleksandra Malysheva, Mina Khan, Sherjil Ozair, Finbarr
Timbers, Toby Pohlen, Tom Eccles, Mark Rowland, Marc Lanctot, Jean-Baptiste
Lespiau, Bilal Piot, Shayegan Omidshafiei, Edward Lockhart, Laurent Sifre,
Nathalie Beauguerlange, Remi Munos, David Silver, Satinder Singh, Demis
Hassabis, Karl Tuyls
- Abstract要約: Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
- 参考スコア(独自算出の注目度): 86.37438204416435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DeepNash, an autonomous agent capable of learning to play the
imperfect information game Stratego from scratch, up to a human expert level.
Stratego is one of the few iconic board games that Artificial Intelligence (AI)
has not yet mastered. This popular game has an enormous game tree on the order
of $10^{535}$ nodes, i.e., $10^{175}$ times larger than that of Go. It has the
additional complexity of requiring decision-making under imperfect information,
similar to Texas hold'em poker, which has a significantly smaller game tree (on
the order of $10^{164}$ nodes). Decisions in Stratego are made over a large
number of discrete actions with no obvious link between action and outcome.
Episodes are long, with often hundreds of moves before a player wins, and
situations in Stratego can not easily be broken down into manageably-sized
sub-problems as in poker. For these reasons, Stratego has been a grand
challenge for the field of AI for decades, and existing AI methods barely reach
an amateur level of play. DeepNash uses a game-theoretic, model-free deep
reinforcement learning method, without search, that learns to master Stratego
via self-play. The Regularised Nash Dynamics (R-NaD) algorithm, a key component
of DeepNash, converges to an approximate Nash equilibrium, instead of 'cycling'
around it, by directly modifying the underlying multi-agent learning dynamics.
DeepNash beats existing state-of-the-art AI methods in Stratego and achieved a
yearly (2022) and all-time top-3 rank on the Gravon games platform, competing
with human expert players.
- Abstract(参考訳): 我々は,不完全な情報ゲームであるstrategoをスクラッチから人間のエキスパートレベルまでプレイできる自律エージェントdeepnashを紹介する。
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
この人気ゲームは、ノード数10^{535}$、すなわちgoの10^{175}$の順に巨大なゲームツリーを持っている。
テキサス・ホールデム・ポーカーのように、不完全な情報の下で意思決定を必要とする複雑さが増し、ゲームツリーが大幅に小さくなった(ノード数は10^{164}$ノード)。
strategoの意思決定は、アクションと結果の明確な関連のない、多数の個別のアクションで行われます。
エピソードは長く、プレイヤーが勝つ前に何百もの動きがあり、スタテゴの状況はポーカーのように扱いやすいサイズのサブプロブレムに容易に分解できない。
これらの理由から、StrategoはAI分野において何十年にもわたって大きな課題であり、既存のAI手法はアマチュアレベルにはほとんど達していない。
DeepNashは、ゲーム理論でモデルなしの深層強化学習手法で、検索なしで、セルフプレイでStrategoを習得する。
DeepNashのキーコンポーネントであるRegularized Nash Dynamics (R-NaD)アルゴリズムは、基礎となるマルチエージェント学習ダイナミクスを直接修正することで、その周りの"サイクリング"ではなく、近似的なNash平衡に収束する。
DeepNashは、Strategoの既存の最先端AIメソッドを破り、Gravonのゲームプラットフォームで年間(2022年)と最高3位を達成した。
関連論文リスト
- Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - DecisionHoldem: Safe Depth-Limited Solving With Diverse Opponents for Imperfect-Information Games [31.26667266662521]
DecisionHoldemは、ディープ・リミテッド・サブゲームによる安全な解法を備えた、ヘッドアップ・ノー・リミット・テキサスホールディングスのためのハイレベルAIだ。
我々は,不完全な情報ゲームにおけるAI開発を促進するために,DecisionHoldemのソースコードとツールをリリースする。
論文 参考訳(メタデータ) (2022-01-27T15:35:49Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Online Double Oracle [20.291016382324777]
本論文では,純粋な戦略の数が巨大あるいは無限である2プレイヤーゼロサムゲームにおける新しい学習アルゴリズムを提案する。
私たちの方法は、$k$がゲームのサイズではない自己再生設定で$mathcalO(sqrtT k log(k))$の後悔の境界を達成します。
論文 参考訳(メタデータ) (2021-03-13T19:48:27Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z) - Deep RL Agent for a Real-Time Action Strategy Game [0.3867363075280543]
1対1のアクション戦略ゲームであるHeroic-Magic Duelをベースとした強化学習環境を導入する。
私たちの主な貢献は、競争レベルでゲームをする深層強化学習エージェントです。
私たちの最高のセルフプレイエージェントは、既存のAIに対して約65%の勝利率と、トップヒューマンプレイヤーに対して50%以上の勝利率を得ることができます。
論文 参考訳(メタデータ) (2020-02-15T01:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。