論文の概要: Towards automating Codenames spymasters with deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2212.14104v1
- Date: Wed, 28 Dec 2022 21:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:12:17.125156
- Title: Towards automating Codenames spymasters with deep reinforcement learning
- Title(参考訳): 深層強化学習によるCodenamesスパイマスターの自動化
- Authors: Sherman Siu
- Abstract要約: この研究は、マルコフ決定プロセスとしてコードネームを定式化した最初のものである。
SAC、PPO、A2Cといった有名な強化学習アルゴリズムを環境に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although most reinforcement learning research has centered on competitive
games, little work has been done on applying it to co-operative multiplayer
games or text-based games. Codenames is a board game that involves both
asymmetric co-operation and natural language processing, which makes it an
excellent candidate for advancing RL research. To my knowledge, this work is
the first to formulate Codenames as a Markov Decision Process and apply some
well-known reinforcement learning algorithms such as SAC, PPO, and A2C to the
environment. Although none of the above algorithms converge for the Codenames
environment, neither do they converge for a simplified environment called
ClickPixel, except when the board size is small.
- Abstract(参考訳): ほとんどの強化学習研究は競争ゲームを中心にしているが、協調型マルチプレイヤーゲームやテキストベースのゲームに適用する作業はほとんど行われていない。
Codenamesは非対称な協調処理と自然言語処理の両方を含むボードゲームであり、RL研究を進めるための優れた候補となっている。
私の知る限り、この研究は初めてMarkov Decision ProcessとしてCodenameを定式化し、SAC、PPO、A2Cといったよく知られた強化学習アルゴリズムを環境に適用しました。
上記のアルゴリズムはいずれもコードネーム環境には収束しないが、ボードサイズが小さい場合を除き、クリックピクセルと呼ばれる単純な環境にも収束しない。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Learning to Play Text-based Adventure Games with Maximum Entropy
Reinforcement Learning [4.698846136465861]
我々はテキストベースの環境にソフト・アクター・クリティック(SAC)アルゴリズムを適用する。
報酬形成技術は、エージェントがポリシーをより早く学習し、より高いスコアを得るのに役立つことを示す。
論文 参考訳(メタデータ) (2023-02-21T15:16:12Z) - A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games [104.3339905200105]
この研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムにインスパイアされた、磁気ミラー降下と呼ばれるアルゴリズムを研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の利点を実証することである。
論文 参考訳(メタデータ) (2022-06-12T19:49:14Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Solving Common-Payoff Games with Approximate Policy Iteration [24.12056802167693]
この研究は、共通知識と深層強化学習を組み合わせた新しいアルゴリズムであるCAPIを提案する。
他の現代的なマルチエージェント強化学習アルゴリズムではできない場合でも、最適なジョイントポリシーを発見することができる。
論文 参考訳(メタデータ) (2021-01-11T23:42:02Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。