論文の概要: "Pick-and-Pass" as a Hat-Trick Class for First-Principle Memory,
Generalizability, and Interpretability Benchmarks
- arxiv url: http://arxiv.org/abs/2310.20654v1
- Date: Tue, 31 Oct 2023 17:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-01 13:50:04.519595
- Title: "Pick-and-Pass" as a Hat-Trick Class for First-Principle Memory,
Generalizability, and Interpretability Benchmarks
- Title(参考訳): 第一原理記憶・一般化・解釈性ベンチマークのためのハットトリッククラスとしての「ピック・アンド・パス」
- Authors: Jason Wang and Ryan Rezai
- Abstract要約: 『寿司囲碁!』(すしごパーティー!)は、プレイ中のカードのセットを基にした密接な関係のゲームである。
各種カードで学習した強化学習アルゴリズムの一般化可能性の定量化を行う。
我々は、学習したモデルの戦略を解釈するために決定ルールを適合させ、それらを人間のプレイヤーのランキング設定と比較する。
- 参考スコア(独自算出の注目度): 3.018656336329545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closed drafting or "pick and pass" is a popular game mechanic where each
round players select a card or other playable element from their hand and pass
the rest to the next player. Games employing closed drafting make for great
studies on memory and turn order due to their explicitly calculable memory of
other players' hands. In this paper, we establish first-principle benchmarks
for studying model-free reinforcement learning algorithms and their comparative
ability to learn memory in a popular family of closed drafting games called
"Sushi Go Party!", producing state-of-the-art results on this environment along
the way. Furthermore, as Sushi Go Party! can be expressed as a set of
closely-related games based on the set of cards in play, we quantify the
generalizability of reinforcement learning algorithms trained on various sets
of cards, establishing key trends between generalized performance and the set
distance between the train and evaluation game configurations. Finally, we fit
decision rules to interpret the strategy of the learned models and compare them
to the ranking preferences of human players, finding intuitive common rules and
intriguing new moves.
- Abstract(参考訳): クローズド・ドラフト」または「ピック・アンド・パス」は、各ラウンドプレーヤーが手からカードや他のプレイ可能な要素を選択し、残りを次のプレイヤーに渡す人気ゲームメカニックである。
クローズド・ドラフトを用いたゲームは、他のプレイヤーの手の明示的に計算可能な記憶のために、記憶と順番を非常に研究する。
本稿では,モデルフリー強化学習アルゴリズムの研究のための第一原理ベンチマークと,Sushi Go Party!と呼ばれるクローズドドラフトゲームの人気ファミリにおける記憶の学習能力を比較し,その過程でこの環境における最先端の成果を生み出す。
また、遊び中のカードセットに基づく密接な関連ゲームの集合として表現できる寿司goパーティーとして、様々なカードセットで訓練された強化学習アルゴリズムの一般化性を定量化し、一般化されたパフォーマンスと列車間の設定距離と評価ゲーム構成との間の鍵となるトレンドを確立する。
最後に、決定ルールを適用し、学習したモデルの戦略を解釈し、人間プレイヤーのランキング選好と比較し、直感的な共通ルールを見つけ、新しい動きに興味をそそる。
関連論文リスト
- All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Beyond the Meta: Leveraging Game Design Parameters for Patch-Agnostic
Esport Analytics [4.1692797498685685]
スポーツゲームは世界のゲーム市場の相当な割合を占めており、ゲームの中では最速の成長セグメントである。
伝統的なスポーツと比較して、エスポートのタイトルは、メカニックやルールの観点から急速に変化する。
本稿では,ゲームデザイン(パッチノートなど)から情報を抽出し,クラスタリング手法を用いて文字表現の新たな形式を提案する。
論文 参考訳(メタデータ) (2023-05-29T11:05:20Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Learning Chess With Language Models and Transformers [0.0]
ボードゲームとその位置をテキストベースの表記で表現することで、NLPアプリケーションが可能となる。
BERTモデルは、まず単純なNimゲームに、数ショットの学習アーキテクチャのセットアップでノイズの存在下でのパフォーマンスを分析する。
モデルはチェスゲームのルールを実質的に学習し、カテゴリーAの格付けレベルでストックフィッシュと対戦して生き残ることができる。
論文 参考訳(メタデータ) (2022-09-24T01:22:59Z) - Principal Trade-off Analysis [79.16635054977068]
低次元特徴空間にゲームを埋め込む分解法であるPTA(Principal Trade-off Analysis)を示す。
PTAは2次元特徴平面の対の重み付け和として任意の2-player 0-sumゲームを表す。
ゲーム四重奏におけるPTAの有効性を示す(Kuhn poker, RPS+2, Blotto, Pokemon)。
論文 参考訳(メタデータ) (2022-06-09T18:16:28Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Markov Cricket: Using Forward and Inverse Reinforcement Learning to
Model, Predict And Optimize Batting Performance in One-Day International
Cricket [0.8122270502556374]
我々は1日の国際クリケットゲームをマルコフプロセスとしてモデル化し、前向きおよび逆強化学習(RL)を適用してゲームのための3つの新しいツールを開発する。
本手法は,残余スコアリング資源のプロキシとして使用する場合,最先端のDuckworth-Lewis-Stern法を3倍から10倍に向上させることを示す。
予測とシミュレーションのテクニックは中断されたゲームの最終スコアを推定するためのより公平な代替手段となり得るが、推定された報酬モデルはプロのゲームがプレイ戦略を最適化するための有用な洞察を提供するかもしれない。
論文 参考訳(メタデータ) (2021-03-07T13:11:16Z) - Individualized Context-Aware Tensor Factorization for Online Games
Predictions [6.602875221541352]
ユーザパフォーマンスとゲーム結果を予測するために,Neural Individualized Context-aware Embeddings(NICE)モデルを提案する。
提案手法は,ユーザとコンテキストの潜在表現を学習することで,異なるコンテキストにおける個人行動の違いを識別する。
我々は,MOBAゲームLeague of Legendsのデータセットを用いて,勝利の予測,個々のユーザパフォーマンス,ユーザエンゲージメントを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-02-22T20:46:02Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。