論文の概要: Interpretability, Generalizability, and Memory of Reinforcement Learning
Agents in Closed Drafting Games
- arxiv url: http://arxiv.org/abs/2310.20654v2
- Date: Wed, 8 Nov 2023 17:56:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:48:52.242274
- Title: Interpretability, Generalizability, and Memory of Reinforcement Learning
Agents in Closed Drafting Games
- Title(参考訳): クローズドドラフトゲームにおける強化学習エージェントの解釈可能性、一般化可能性、記憶
- Authors: Ryan Rezai and Jason Wang
- Abstract要約: モデルなし強化学習アルゴリズムをクローズドドラフトゲームで学習する。
特に『寿司碁会!
各種カード上で学習したRLモデルの一般化可能性の定量化を行う。
- 参考スコア(独自算出の注目度): 3.018656336329545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed drafting or "pick and pass" is a popular game mechanic where each
round players select a card or other playable element from their hand and pass
the rest to the next player. In this paper, we establish first-principle
interpretability, generalizability, and memory benchmarks for studying
model-free reinforcement learning (RL) algorithms playing closed drafting
games. Specifically in a popular family of closed drafting games called "Sushi
Go Party!", in which we achieve state-of-the-art performance. We fit decision
rules to interpret the strategy of trained RL agents and compare these to the
ranking preferences of different types of human players, finding easily
understandable explanations of the disparate performance of RL agents in this
environment. As Sushi Go Party! can be expressed as a set of closely-related
games based on the set of cards in play, we quantify the generalizability of RL
models trained on various sets of cards, establishing key trends between
performance and the set distance between the train and evaluation game
configurations. Using the explicitly calculable memory of other player's hands
in closed drafting games, we create measures of the ability of RL models to
learn memory.
- Abstract(参考訳): クローズド・ドラフト」または「ピック・アンド・パス」は、各ラウンドプレーヤーが手からカードや他のプレイ可能な要素を選択し、残りを次のプレイヤーに渡す人気ゲームメカニックである。
本稿では, モデルフリー強化学習(RL)アルゴリズムを学習するための第一原理的解釈可能性, 一般化可能性, メモリベンチマークを確立する。
特に「寿司囲碁!」と称されるクローズドドラフトゲームの人気ファミリーでは、最先端のパフォーマンスを実現しています。
我々は,訓練されたrlエージェントの戦略を解釈するために決定ルールを適合させ,これらを様々な人間のプレイヤーのランキング選好と比較し,この環境におけるrlエージェントの異なる性能の理解しやすい説明を求める。
試合中のカードの集合を基にした密接な関連ゲームとして表現できるため、様々なカードセットで訓練されたRLモデルの一般化性を定量化し、列車と評価ゲーム構成間の性能と設定距離のキーとなる傾向を定めている。
クローズドドラフトゲームにおいて、他のプレイヤーの手の明示的に計算可能な記憶を用いて、RLモデルが記憶を学習する能力を測定する。
関連論文リスト
- All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic
Esport Analytics [4.1692797498685685]
スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。
伝統的なスポーツと比較して、エスポートのタイトルは、メカニックやルールの観点から急速に変化する。
本稿では,ゲームデザイン(パッチノートなど)から情報を抽出し,クラスタリング手法を用いて文字表現の新たな形式を提案する。
論文 参考訳(メタデータ) (2023-05-29T11:05:20Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Learning Chess With Language Models and Transformers [0.0]
ボードゲームとその位置をテキストベースの表記で表現することで、NLPアプリケーションが可能となる。
BERTモデルは、まず単純なNimゲームに、数ショットの学習アーキテクチャのセットアップでノイズの存在下でのパフォーマンスを分析する。
モデルはチェスゲームのルールを実質的に学習し、カテゴリーAの格付けレベルでストックフィッシュと対戦して生き残ることができる。
論文 参考訳(メタデータ) (2022-09-24T01:22:59Z) - Principal Trade-off Analysis [79.16635054977068]
低次元特徴空間にゲームを埋め込む分解法であるPTA(Principal Trade-off Analysis)を示す。
PTAは2次元特徴平面の対の重み付け和として任意の2-player 0-sumゲームを表す。
ゲーム四重奏におけるPTAの有効性を示す(Kuhn poker, RPS+2, Blotto, Pokemon)。
論文 参考訳(メタデータ) (2022-06-09T18:16:28Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。
本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2021-03-07T13:11:16Z) - Individualized Context-Aware Tensor Factorization for Online Games
Predictions [6.602875221541352]
ユーザパフォーマンスとゲーム結果を予測するために,Neural Individualized Context-aware Embeddings(NICE)モデルを提案する。
提案手法は,ユーザとコンテキストの潜在表現を学習することで,異なるコンテキストにおける個人行動の違いを識別する。
我々は,MOBAゲームLeague of Legendsのデータセットを用いて,勝利の予測,個々のユーザパフォーマンス,ユーザエンゲージメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-02-22T20:46:02Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。