論文の概要: Mastering Strategy Card Game (Legends of Code and Magic) via End-to-End
Policy and Optimistic Smooth Fictitious Play
- arxiv url: http://arxiv.org/abs/2303.04096v1
- Date: Tue, 7 Mar 2023 17:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:17:13.569551
- Title: Mastering Strategy Card Game (Legends of Code and Magic) via End-to-End
Policy and Optimistic Smooth Fictitious Play
- Title(参考訳): エンド・ツー・エンドポリシーと最適スムースフィクションプレイによるマスタリング戦略カードゲーム(コードとマジック)
- Authors: Wei Xi, Yongxin Zhang, Changnan Xiao, Xuefeng Huang, Shihong Deng,
Haowei Liang, Jie Chen, Peng Sun
- Abstract要約: 我々は、2段階の戦略カードゲーム「Regends of Code and Magic」を研究する。
マルチステージゲームにおける難題を解決するために,エンド・ツー・エンドのポリシーを提案する。
私たちのアプローチはCOG2022コンペティションの2連覇です。
- 参考スコア(独自算出の注目度): 11.480308614644041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning combined with Fictitious Play shows impressive
results on many benchmark games, most of which are, however, single-stage. In
contrast, real-world decision making problems may consist of multiple stages,
where the observation spaces and the action spaces can be completely different
across stages. We study a two-stage strategy card game Legends of Code and
Magic and propose an end-to-end policy to address the difficulties that arise
in multi-stage game. We also propose an optimistic smooth fictitious play
algorithm to find the Nash Equilibrium for the two-player game. Our approach
wins double championships of COG2022 competition. Extensive studies verify and
show the advancement of our approach.
- Abstract(参考訳): 深層強化学習と架空の遊びの組み合わせは、多くのベンチマークゲームで印象的な結果を示している。
対照的に、実世界の意思決定問題は複数の段階から成り、観測空間と行動空間は完全に異なる。
我々は、2段階の戦略カードゲーム「Regends of Code and Magic」を研究し、多段階ゲームにおける困難に対処するためのエンドツーエンドポリシーを提案する。
また,2人プレイのナッシュ均衡を求めるため,楽観的な滑らかな仮想プレイアルゴリズムを提案する。
私たちのアプローチはCOG2022の2連覇です。
広範な研究が我々のアプローチの進歩を検証し示す。
関連論文リスト
- SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - On the Power of Refined Skat Selection [1.3706331473063877]
Skatは魅力的なカードゲームで、現代のAIシステムの本質的な課題の多くを示しています。
洗練されたskat評価機能に基づくハードエキスパートルールとスコアリング関数を提案する。
実験では、精巧なskat pingアルゴリズムがボットの演奏性能に与える影響を強調した。
論文 参考訳(メタデータ) (2021-04-07T08:54:58Z) - Collaborative Agent Gameplay in the Pandemic Board Game [3.223284371460913]
Pandemicは、すべてのプレイヤーがゲームの進行中に発生する出来事によって引き起こされる課題を克服するために調整する模範的な共同ボードゲームです。
本稿では,すべてのプレイヤーの行動を制御し,この高度に進化した環境において勝つ確率と負けるリスクをバランスさせる人工エージェントを提案する。
提案アルゴリズムは,様々な難易度を持つ異なるゲームにおいて,より一貫した勝利戦略を見出すことができることを示す。
論文 参考訳(メタデータ) (2021-03-21T13:18:20Z) - Discovering Diverse Multi-Agent Strategic Behavior via Reward
Randomization [42.33734089361143]
複雑なマルチエージェントゲームにおいて多様な戦略方針を発見する手法を提案する。
我々は新しいアルゴリズム Reward-Randomized Policy Gradient (RPG) を導出する。
RPGは、時間的信頼のジレンマに挑戦する際、複数の特徴的な人間解釈可能な戦略を発見することができる。
論文 参考訳(メタデータ) (2021-03-08T06:26:55Z) - Learning to Play Imperfect-Information Games by Imitating an Oracle
Planner [77.67437357688316]
我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。
我々のアプローチはモデルに基づく計画に基づいている。
我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
論文 参考訳(メタデータ) (2020-12-22T17:29:57Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。