論文の概要: Two-Step Reinforcement Learning for Multistage Strategy Card Game
- arxiv url: http://arxiv.org/abs/2311.17305v1
- Date: Wed, 29 Nov 2023 01:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:50:56.252841
- Title: Two-Step Reinforcement Learning for Multistage Strategy Card Game
- Title(参考訳): 多段戦略カードゲームのための2段階強化学習
- Authors: Konrad Godlewski, Bartosz Sawicki
- Abstract要約: 本研究では,「指輪のロード:カードゲーム(LOTRCG)」に適した2段階強化学習(RL)戦略を紹介する。
本研究は,段階学習アプローチを採用することにより,従来のRL手法から分岐する。
また,異なるRLエージェントがゲームにおける様々な意思決定に使用されるマルチエージェントシステムについても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of artificial intelligence and card games, this study introduces
a two-step reinforcement learning (RL) strategy tailored for "The Lord of the
Rings: The Card Game (LOTRCG)," a complex multistage strategy card game. This
research diverges from conventional RL methods by adopting a phased learning
approach, beginning with a foundational learning stage in a simplified version
of the game and subsequently progressing to the complete, intricate game
environment. This methodology notably enhances the AI agent's adaptability and
performance in the face of LOTRCG's unpredictable and challenging nature. The
paper also explores a multi-agent system, where distinct RL agents are employed
for various decision-making aspects of the game. This approach has demonstrated
a remarkable improvement in game outcomes, with the RL agents achieving a
winrate of 78.5% across a set of 10,000 random games.
- Abstract(参考訳): 人工知能とカードゲームの世界では、複雑なマルチステージ戦略カードゲームである「ロード・オブ・ザ・リング:ザ・カードゲーム」(LOTRCG)に合わせた2段階強化学習(RL)戦略を導入する。
本研究は,ゲームの簡易版における基礎的学習段階から始まり,その後に完全で複雑なゲーム環境へと進行する段階的学習アプローチを採用することで,従来のrl手法から逸脱する。
この方法論は、LOTRCGの予測不能で困難な性質に直面したAIエージェントの適応性と性能を特に向上させる。
また,異なるRLエージェントがゲームの様々な意思決定に使用されるマルチエージェントシステムについても検討した。
このアプローチはゲームの結果を著しく改善し、RLエージェントは1万のランダムゲームに対して78.5%の勝利率を達成した。
関連論文リスト
- SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - Griddly: A platform for AI research in games [0.0]
我々はGriddlyをゲームAI研究の新しいプラットフォームとして紹介する。
Griddlyは、高度にカスタマイズ可能なゲーム、異なるオブザーバタイプ、効率的なC++コアエンジンのユニークな組み合わせを提供する。
本稿では,RLエージェントの観察構成と一般化能力の相違について,一連の基礎実験を行った。
論文 参考訳(メタデータ) (2020-11-12T13:23:31Z) - Strategies for Using Proximal Policy Optimization in Mobile Puzzle Games [0.0]
本研究は, カジュアルなモバイルパズルゲームにおいて, 人気のRL手法であるPPO(Proximal Policy Optimization)の適用戦略を調査し, 評価する。
我々は,現実のモバイルパズルゲームに対して,さまざまな戦略を実装し,テストしてきた。
このゲームジャンルにおけるアルゴリズムのより安定した動作を保証するためのいくつかの戦略を特定した。
論文 参考訳(メタデータ) (2020-07-03T08:03:45Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。