論文の概要: Learning to Reason in Round-based Games: Multi-task Sequence Generation
for Purchasing Decision Making in First-person Shooters
- arxiv url: http://arxiv.org/abs/2008.05131v1
- Date: Wed, 12 Aug 2020 06:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:35:23.410663
- Title: Learning to Reason in Round-based Games: Multi-task Sequence Generation
for Purchasing Decision Making in First-person Shooters
- Title(参考訳): ラウンドベースゲームにおける推論学習:一対一シューティングにおける購入決定のためのマルチタスクシーケンス生成
- Authors: Yilei Zeng, Deren Lei, Beichen Li, Gangrong Jiang, Emilio Ferrara,
Michael Zyda
- Abstract要約: 本稿では,ラウンド・アトリビュートとマルチタスク・デコーダを用いたシーケンス・リゾネータを提案し,ラウンド・ベースの意思決定の背後にある戦略を解釈する。
複数のラウンドをマッチでサンプリングするために、数ショットの学習を採用し、メタラーニングループに対してモデルメタラーニングに依存しないように修正した。
私たちの研究は、ゲームコミュニティを超えて、エピソードと長期的な購入戦略を理解するための、解釈可能なAIのための扉を開くでしょう。
- 参考スコア(独自算出の注目度): 15.004637601589701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential reasoning is a complex human ability, with extensive previous
research focusing on gaming AI in a single continuous game, round-based
decision makings extending to a sequence of games remain less explored.
Counter-Strike: Global Offensive (CS:GO), as a round-based game with abundant
expert demonstrations, provides an excellent environment for multi-player
round-based sequential reasoning. In this work, we propose a Sequence Reasoner
with Round Attribute Encoder and Multi-Task Decoder to interpret the strategies
behind the round-based purchasing decisions. We adopt few-shot learning to
sample multiple rounds in a match, and modified model agnostic meta-learning
algorithm Reptile for the meta-learning loop. We formulate each round as a
multi-task sequence generation problem. Our state representations combine
action encoder, team encoder, player features, round attribute encoder, and
economy encoders to help our agent learn to reason under this specific
multi-player round-based scenario. A complete ablation study and comparison
with the greedy approach certify the effectiveness of our model. Our research
will open doors for interpretable AI for understanding episodic and long-term
purchasing strategies beyond the gaming community.
- Abstract(参考訳): シークエンシャル推論は複雑な人間の能力であり、1つの連続ゲームにおけるゲームAIに焦点を合わせ、ラウンドベースの意思決定が一連のゲームに拡張されることは、まだ調査されていない。
Counter-Strike: Global Offensive (CS:GO)は、多人数ラウンドベースのシーケンシャル推論のための優れた環境を提供する。
本研究では,ラウンド・アトリビュート・エンコーダとマルチタスク・デコーダを用いたシーケンス・レコーダを提案し,ラウンド・ベースの買収決定の背後にある戦略を解釈する。
複数のラウンドを一致でサンプリングし,メタ学習ループのためのモデル非依存なメタ学習アルゴリズムをレプティルに変更した。
各ラウンドをマルチタスクシーケンス生成問題として定式化する。
我々の状態表現は、アクションエンコーダ、チームエンコーダ、プレイヤー機能、ラウンド属性エンコーダ、エコノミーエンコーダを組み合わせて、エージェントがこの特定のマルチプレイヤーラウンドベースシナリオで推論することを学ぶのに役立つ。
完全アブレーション研究とグリーディアプローチとの比較により,本モデルの有効性が証明された。
我々の研究は、ゲームコミュニティを超えて、エピソードと長期的な購入戦略を理解するための解釈可能なAIのための扉を開く。
関連論文リスト
- Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - Imperfect-Recall Games: Equilibrium Concepts and Their Complexity [74.01381499760288]
エージェントが以前保持していた情報を忘れたとき、不完全なリコールの下で最適な意思決定を行う。
不完全なリコールを伴う広範囲形式のゲームフレームワークにおいて、マルチプレイヤー設定における平衡を求める際の計算複雑性を解析する。
論文 参考訳(メタデータ) (2024-06-23T00:27:28Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Multi-AI competing and winning against humans in iterated
Rock-Paper-Scissors game [4.2124879433151605]
我々は1つの固定メモリ長のマルコフモデルに基づくAIアルゴリズムを用いて、反復したRock Paper Scissorsゲームで人間と競合する。
我々は、異なる競合戦略に対応するために、変更可能なパラメータを持つマルチAIアーキテクチャを開発する。
我々の戦略は、95%以上の人間の対戦相手に勝つことができる。
論文 参考訳(メタデータ) (2020-03-15T06:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。