論文の概要: Learning to Play Imperfect-Information Games by Imitating an Oracle
Planner
- arxiv url: http://arxiv.org/abs/2012.12186v1
- Date: Tue, 22 Dec 2020 17:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:33:16.933003
- Title: Learning to Play Imperfect-Information Games by Imitating an Oracle
Planner
- Title(参考訳): Oracle Plannerを使わずに不完全な情報ゲームを学ぶ
- Authors: Rinu Boney, Alexander Ilin, Juho Kannala, Jarno Sepp\"anen
- Abstract要約: 我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。
我々のアプローチはモデルに基づく計画に基づいている。
我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
- 参考スコア(独自算出の注目度): 77.67437357688316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider learning to play multiplayer imperfect-information games with
simultaneous moves and large state-action spaces. Previous attempts to tackle
such challenging games have largely focused on model-free learning methods,
often requiring hundreds of years of experience to produce competitive agents.
Our approach is based on model-based planning. We tackle the problem of partial
observability by first building an (oracle) planner that has access to the full
state of the environment and then distilling the knowledge of the oracle to a
(follower) agent which is trained to play the imperfect-information game by
imitating the oracle's choices. We experimentally show that planning with naive
Monte Carlo tree search does not perform very well in large combinatorial
action spaces. We therefore propose planning with a fixed-depth tree search and
decoupled Thompson sampling for action selection. We show that the planner is
able to discover efficient playing strategies in the games of Clash Royale and
Pommerman and the follower policy successfully learns to implement them by
training on a few hundred battles.
- Abstract(参考訳): 我々は,同時動作と大規模状態行動空間を備えたマルチプレイヤー不完全な情報ゲームをプレイする学習を検討する。
このような難易度の高いゲームに取り組む以前の試みは、主にモデルフリーの学習方法に重点を置いており、しばしば競合エージェントを作るのに数百年の経験を必要とする。
我々のアプローチはモデルに基づく計画に基づいている。
我々は、まず環境の全状態にアクセス可能な(oracle)プランナーを構築し、次にoracleの知識を(フォロー)エージェントに蒸留し、oracleの選択を模倣して不完全な情報ゲームをプレイするように訓練することで、部分的可観測性の問題に取り組む。
我々は,モンテカルロ木探索による計画が大規模な組合せ行動空間ではうまく機能しないことを示した。
そこで我々は,行動選択のための固定深度木探索と非結合型トンプソンサンプリングによる計画を提案する。
プランナーは衝突ロイヤリストとポンメルマンのゲームで効率的なプレイ戦略を発見でき、数百の戦闘を訓練してそれらを実践するのに成功した。
関連論文リスト
- Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent
Models in Pommerman [14.668309037894586]
強化学習(Reinforcement Learning)と組み合わせて、モンテカルロ木探索(Monte-Carlo Tree Search)はChess、Shogi、Goといったゲームにおいて、人間のグランドマスターよりも優れていることを示した。
汎用マルチプレイヤーゲームからシングルプレイヤーゲームと2プレイヤーゲームに変換する手法について検討する。
論文 参考訳(メタデータ) (2023-05-22T16:39:20Z) - Solving Royal Game of Ur Using Reinforcement Learning [0.0]
我々はモンテカルロ、クラーニング、サーサといった異なる手法を用いてエージェントを訓練し、戦略的なUrゲームを行うための最適なポリシーを学ぶ。
アルゴリズムによる限られたリソースで訓練された場合、全体的なパフォーマンスは向上するが、期待されるSarsaは、学習の高速化に関して有望な結果を示す。
論文 参考訳(メタデータ) (2022-08-23T01:26:37Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。