論文の概要: Closed Drafting as a Case Study for First-Principle Interpretability,
Memory, and Generalizability in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.20654v3
- Date: Fri, 17 Nov 2023 17:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 16:53:55.182485
- Title: Closed Drafting as a Case Study for First-Principle Interpretability,
Memory, and Generalizability in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における第一原理解釈,記憶,一般化のケーススタディとしてのクローズド・ドラフト
- Authors: Ryan Rezai and Jason Wang
- Abstract要約: 本稿では,DQN(Deep Q-Network)モデルの解釈可能性,一般化性,メモリについて検討する。
我々は、最先端の演技を行う「寿司囲碁会」と呼ばれる、クローズドドラフトゲームの人気ファミリを使用している。
- 参考スコア(独自算出の注目度): 3.018656336329545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed drafting or "pick and pass" is a popular game mechanic where each
round players select a card or other playable element from their hand and pass
the rest to the next player. In this paper, we establish first-principle
methods for studying the interpretability, generalizability, and memory of Deep
Q-Network (DQN) models playing closed drafting games. In particular, we use a
popular family of closed drafting games called "Sushi Go Party", in which we
achieve state-of-the-art performance. We fit decision rules to interpret the
decision-making strategy of trained DRL agents by comparing them to the ranking
preferences of different types of human players. As Sushi Go Party can be
expressed as a set of closely-related games based on the set of cards in play,
we quantify the generalizability of DRL models trained on various sets of
cards, establishing a method to benchmark agent performance as a function of
environment unfamiliarity. Using the explicitly calculable memory of other
player's hands in closed drafting games, we create measures of the ability of
DRL models to learn memory.
- Abstract(参考訳): クローズド・ドラフト」または「ピック・アンド・パス」は、各ラウンドプレーヤーが手からカードや他のプレイ可能な要素を選択し、残りを次のプレイヤーに渡す人気ゲームメカニックである。
本稿では,クローズドドラフトゲームを行うディープqネットワーク(dqn)モデルの解釈性,一般化性,記憶性を研究するための第一原理手法を確立する。
特に、最先端の演技を行う「寿司囲碁会」という、クローズドな起草ゲームの人気ファミリを用いている。
我々は、訓練されたDRLエージェントの意思決定戦略を、異なるタイプの人間のプレイヤーのランク設定と比較することにより解釈する決定ルールに適合する。
遊びのカードセットを基にしたゲームセットとして表現できるため、様々なカードセットで訓練されたdrlモデルの一般化性を定量化し、環境に不慣れな機能としてエージェントのパフォーマンスをベンチマークする方法を確立した。
クローズドドラフトゲームにおいて,他のプレイヤーの手の明示的に計算可能なメモリを用いて,DRLモデルのメモリ学習能力を測定する。
関連論文リスト
- All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic
Esport Analytics [4.1692797498685685]
スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。
伝統的なスポーツと比較して、エスポートのタイトルは、メカニックやルールの観点から急速に変化する。
本稿では,ゲームデザイン(パッチノートなど)から情報を抽出し,クラスタリング手法を用いて文字表現の新たな形式を提案する。
論文 参考訳(メタデータ) (2023-05-29T11:05:20Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Learning Chess With Language Models and Transformers [0.0]
ボードゲームとその位置をテキストベースの表記で表現することで、NLPアプリケーションが可能となる。
BERTモデルは、まず単純なNimゲームに、数ショットの学習アーキテクチャのセットアップでノイズの存在下でのパフォーマンスを分析する。
モデルはチェスゲームのルールを実質的に学習し、カテゴリーAの格付けレベルでストックフィッシュと対戦して生き残ることができる。
論文 参考訳(メタデータ) (2022-09-24T01:22:59Z) - Principal Trade-off Analysis [79.16635054977068]
低次元特徴空間にゲームを埋め込む分解法であるPTA(Principal Trade-off Analysis)を示す。
PTAは2次元特徴平面の対の重み付け和として任意の2-player 0-sumゲームを表す。
ゲーム四重奏におけるPTAの有効性を示す(Kuhn poker, RPS+2, Blotto, Pokemon)。
論文 参考訳(メタデータ) (2022-06-09T18:16:28Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。
本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2021-03-07T13:11:16Z) - Individualized Context-Aware Tensor Factorization for Online Games
Predictions [6.602875221541352]
ユーザパフォーマンスとゲーム結果を予測するために,Neural Individualized Context-aware Embeddings(NICE)モデルを提案する。
提案手法は,ユーザとコンテキストの潜在表現を学習することで,異なるコンテキストにおける個人行動の違いを識別する。
我々は,MOBAゲームLeague of Legendsのデータセットを用いて,勝利の予測,個々のユーザパフォーマンス,ユーザエンゲージメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-02-22T20:46:02Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。