論文の概要: Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent
Models in Pommerman
- arxiv url: http://arxiv.org/abs/2305.13206v1
- Date: Mon, 22 May 2023 16:39:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:17:11.389129
- Title: Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent
Models in Pommerman
- Title(参考訳): モンテカルロの木の探索とポマーマンの正反対モデル
- Authors: Jannis Weil, Johannes Czech, Tobias Meuser, Kristian Kersting
- Abstract要約: 強化学習(Reinforcement Learning)と組み合わせて、モンテカルロ木探索(Monte-Carlo Tree Search)はChess、Shogi、Goといったゲームにおいて、人間のグランドマスターよりも優れていることを示した。
汎用マルチプレイヤーゲームからシングルプレイヤーゲームと2プレイヤーゲームに変換する手法について検討する。
- 参考スコア(独自算出の注目度): 14.668309037894586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In combination with Reinforcement Learning, Monte-Carlo Tree Search has shown
to outperform human grandmasters in games such as Chess, Shogi and Go with
little to no prior domain knowledge. However, most classical use cases only
feature up to two players. Scaling the search to an arbitrary number of players
presents a computational challenge, especially if decisions have to be planned
over a longer time horizon. In this work, we investigate techniques that
transform general-sum multiplayer games into single-player and two-player games
that consider other agents to act according to given opponent models. For our
evaluation, we focus on the challenging Pommerman environment which involves
partial observability, a long time horizon and sparse rewards. In combination
with our search methods, we investigate the phenomena of opponent modeling
using heuristics and self-play. Overall, we demonstrate the effectiveness of
our multiplayer search variants both in a supervised learning and reinforcement
learning setting.
- Abstract(参考訳): 強化学習と組み合わせることで、モンテカルロ・ツリーサーチはチェス、ショギ、ゴーといったゲームで人間のグランドマスターをほとんど、あるいは全く事前のドメイン知識で上回っている。
しかし、ほとんどの古典的なユースケースは2人までしか使用できない。
任意の数のプレイヤーに探索を拡大することは、特に長い時間をかけて決定を計画する必要がある場合、計算上の課題を示す。
本研究では,汎用マルチプレイヤーゲームから,対戦相手モデルに応じて他のエージェントを動作させる2人プレイヤゲームへ変換する手法について検討する。
本評価では, 部分観測可能性, 長期間の地平線, スパース報酬を含む, 挑戦的なポンマーマン環境に着目した。
探索法と組み合わせて, ヒューリスティックスと自己遊びを用いて, 対向モデリングの現象について検討する。
全体として,教師付き学習と強化学習の両方において,マルチプレイヤー検索の有効性を示す。
関連論文リスト
- All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Collusion Detection in Team-Based Multiplayer Games [57.153233321515984]
チームベースのマルチプレイヤーゲームにおいて,協調動作を検出するシステムを提案する。
提案手法は,ゲーム内行動パターンと組み合わせたプレイヤーの社会的関係を解析する。
次に,非教師なし学習手法であるアイソレーションフォレストによる検出を自動化する。
論文 参考訳(メタデータ) (2022-03-10T02:37:39Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Learning to Play Imperfect-Information Games by Imitating an Oracle
Planner [77.67437357688316]
我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。
我々のアプローチはモデルに基づく計画に基づいている。
我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
論文 参考訳(メタデータ) (2020-12-22T17:29:57Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z) - Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition [9.75720700239984]
本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
2019年の競争で上位5つのボットのうち、モンテカルロツリーサーチ(MCTS)を使用しないボットは、ポリシーグラディエントベースの対戦モデルによるボットのみである。
論文 参考訳(メタデータ) (2020-03-31T04:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。