Fugu-MT 論文翻訳(概要): Interpretability, Generalizability, and Memory of Reinforcement Learning Agents in Closed Drafting Games

論文の概要: Interpretability, Generalizability, and Memory of Reinforcement Learning Agents in Closed Drafting Games

arxiv url: http://arxiv.org/abs/2310.20654v2
Date: Wed, 8 Nov 2023 17:56:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-09 18:48:52.242274
Title: Interpretability, Generalizability, and Memory of Reinforcement Learning Agents in Closed Drafting Games
Title（参考訳）: クローズドドラフトゲームにおける強化学習エージェントの解釈可能性、一般化可能性、記憶
Authors: Ryan Rezai and Jason Wang
Abstract要約: モデルなし強化学習アルゴリズムをクローズドドラフトゲームで学習する。特に『寿司碁会! 各種カード上で学習したRLモデルの一般化可能性の定量化を行う。
参考スコア（独自算出の注目度）: 3.018656336329545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Closed drafting or "pick and pass" is a popular game mechanic where each round players select a card or other playable element from their hand and pass the rest to the next player. In this paper, we establish first-principle interpretability, generalizability, and memory benchmarks for studying model-free reinforcement learning (RL) algorithms playing closed drafting games. Specifically in a popular family of closed drafting games called "Sushi Go Party!", in which we achieve state-of-the-art performance. We fit decision rules to interpret the strategy of trained RL agents and compare these to the ranking preferences of different types of human players, finding easily understandable explanations of the disparate performance of RL agents in this environment. As Sushi Go Party! can be expressed as a set of closely-related games based on the set of cards in play, we quantify the generalizability of RL models trained on various sets of cards, establishing key trends between performance and the set distance between the train and evaluation game configurations. Using the explicitly calculable memory of other player's hands in closed drafting games, we create measures of the ability of RL models to learn memory.
Abstract（参考訳）: クローズド・ドラフト」または「ピック・アンド・パス」は、各ラウンドプレーヤーが手からカードや他のプレイ可能な要素を選択し、残りを次のプレイヤーに渡す人気ゲームメカニックである。本稿では, モデルフリー強化学習(RL)アルゴリズムを学習するための第一原理的解釈可能性, 一般化可能性, メモリベンチマークを確立する。特に「寿司囲碁!」と称されるクローズドドラフトゲームの人気ファミリーでは、最先端のパフォーマンスを実現しています。我々は,訓練されたrlエージェントの戦略を解釈するために決定ルールを適合させ,これらを様々な人間のプレイヤーのランキング選好と比較し,この環境におけるrlエージェントの異なる性能の理解しやすい説明を求める。試合中のカードの集合を基にした密接な関連ゲームとして表現できるため、様々なカードセットで訓練されたRLモデルの一般化性を定量化し、列車と評価ゲーム構成間の性能と設定距離のキーとなる傾向を定めている。クローズドドラフトゲームにおいて、他のプレイヤーの手の明示的に計算可能な記憶を用いて、RLモデルが記憶を学習する能力を測定する。

関連論文リスト

Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games [0.6417777780911224]
Valetは21の伝統的な不完全な情報カードゲームの多様で包括的なテストベッドである。これらのゲームは、複数のジャンル、文化、プレイヤー数、デッキ構造、メカニック、勝利条件、情報の隠蔽と開示方法にまたがる。ランダムシミュレーションを用いて,各ゲームの分岐係数と期間を実験的に評価し,ベンチマークスイートとしてのValetの適合性を実証する。
論文参考訳（メタデータ） (2026-03-03T18:46:47Z)
Emergent World Beliefs: Exploring Transformers in Stochastic Games [2.497936211748472]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な分野にまたがる強力な推論能力を示している。我々は、ポーカーハンドヒストリーデータにGPTスタイルのモデルを事前学習し、その内部アクティベーションを探索する。本結果は,手の位置などの決定論的構造と,エクイティなどの特徴の両方を,明示的な指示なしに学習できることを実証する。
論文参考訳（メタデータ） (2025-12-18T19:36:53Z)
Outer-Learning Framework for Playing Multi-Player Trick-Taking Card Games: A Case Study in Skat [1.7006003864727406]
SkatやBridgeのようなマルチプレイヤーカードゲームでは、ゲームの初期ステージは、洗練された中盤や終盤のプレイよりも、ゲームの成功に批判的になることが多い。本稿では,人間ゲームのデータベースを数百万のAIゲームで拡張し,統計生成とマージによって予測精度を向上させる,一般的なブートストラップ外学習フレームワークを考案し,評価する。我々は、コンパクト化されたテーブルに対処するための完璧な機能ハッシュ関数を実装し、自己学習中に新たに推論された知識を継続的に改善する自己改善カードゲームエンジンを生成する。
論文参考訳（メタデータ） (2025-12-17T13:27:44Z)
All by Myself: Learning Individualized Competitive Behaviour with a Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2023-10-02T08:11:07Z)
Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic Esport Analytics [4.1692797498685685]
スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。伝統的なスポーツと比較して、エスポートのタイトルは、メカニックやルールの観点から急速に変化する。本稿では,ゲームデザイン(パッチノートなど)から情報を抽出し,クラスタリング手法を用いて文字表現の新たな形式を提案する。
論文参考訳（メタデータ） (2023-05-29T11:05:20Z)
SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文参考訳（メタデータ） (2023-05-24T18:14:35Z)
Learning Chess With Language Models and Transformers [0.0]
ボードゲームとその位置をテキストベースの表記で表現することで、NLPアプリケーションが可能となる。 BERTモデルは、まず単純なNimゲームに、数ショットの学習アーキテクチャのセットアップでノイズの存在下でのパフォーマンスを分析する。モデルはチェスゲームのルールを実質的に学習し、カテゴリーAの格付けレベルでストックフィッシュと対戦して生き残ることができる。
論文参考訳（メタデータ） (2022-09-24T01:22:59Z)
Principal Trade-off Analysis [79.16635054977068]
低次元特徴空間にゲームを埋め込む分解法であるPTA(Principal Trade-off Analysis)を示す。 PTAは2次元特徴平面の対の重み付け和として任意の2-player 0-sumゲームを表す。ゲーム四重奏におけるPTAの有効性を示す(Kuhn poker, RPS+2, Blotto, Pokemon)。
論文参考訳（メタデータ） (2022-06-09T18:16:28Z)
Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。 LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文参考訳（メタデータ） (2021-06-04T22:30:25Z)
Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文参考訳（メタデータ） (2021-04-17T20:33:24Z)
Markov Cricket: Using Forward and Inverse Reinforcement Learning to Model, Predict And Optimize Batting Performance in One-Day International Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文参考訳（メタデータ） (2021-03-07T13:11:16Z)
Individualized Context-Aware Tensor Factorization for Online Games Predictions [6.602875221541352]
ユーザパフォーマンスとゲーム結果を予測するために,Neural Individualized Context-aware Embeddings(NICE)モデルを提案する。提案手法は,ユーザとコンテキストの潜在表現を学習することで,異なるコンテキストにおける個人行動の違いを識別する。我々は,MOBAゲームLeague of Legendsのデータセットを用いて,勝利の予測,個々のユーザパフォーマンス,ユーザエンゲージメントを大幅に改善することを示した。
論文参考訳（メタデータ） (2021-02-22T20:46:02Z)
DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文参考訳（メタデータ） (2020-12-03T13:53:29Z)
Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文参考訳（メタデータ） (2020-09-21T17:51:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。