論文の概要: Final Adaptation Reinforcement Learning for N-Player Games
- arxiv url: http://arxiv.org/abs/2111.14375v1
- Date: Mon, 29 Nov 2021 08:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 02:24:40.236582
- Title: Final Adaptation Reinforcement Learning for N-Player Games
- Title(参考訳): N-Player ゲームの最終適応強化学習
- Authors: Wolfgang Konen and Samineh Bagheri
- Abstract要約: 本稿では,n-tuple-based reinforcement learning (RL)アルゴリズムについて述べる。
本稿では,TD-,SARSA-およびQ-ラーニングのための新しいアルゴリズムを提案する。
これらのアルゴリズムにFinal Adaptation RL(FARL)と呼ばれる新しい要素を追加します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper covers n-tuple-based reinforcement learning (RL) algorithms for
games. We present new algorithms for TD-, SARSA- and Q-learning which work
seamlessly on various games with arbitrary number of players. This is achieved
by taking a player-centered view where each player propagates his/her rewards
back to previous rounds. We add a new element called Final Adaptation RL (FARL)
to all these algorithms. Our main contribution is that FARL is a vitally
important ingredient to achieve success with the player-centered view in
various games. We report results on seven board games with 1, 2 and 3 players,
including Othello, ConnectFour and Hex. In most cases it is found that FARL is
important to learn a near-perfect playing strategy. All algorithms are
available in the GBG framework on GitHub.
- Abstract(参考訳): 本稿では,n-tuple-based reinforcement learning (RL)アルゴリズムについて述べる。
任意のプレイヤー数で様々なゲームにシームレスに動作するtd-, sarsa-, q-learningのための新しいアルゴリズムを提案する。
これはプレイヤー中心の視点で各プレイヤーが前回のラウンドまで報酬を伝達することで達成される。
これらのアルゴリズムにFinal Adaptation RL(FARL)と呼ばれる新しい要素を追加します。
我々の主な貢献は、FARLが様々なゲームにおいてプレイヤー中心の視点で成功するための重要な要素であることである。
我々は,Othello,ConnectFour,Hexを含む1,2,3人のプレイヤーによる7つのボードゲームの結果を報告する。
多くの場合、FARLは、ほぼ完璧なプレイ戦略を学ぶことが重要である。
すべてのアルゴリズムはGitHubのGBGフレームワークで利用可能だ。
関連論文リスト
- Deep Reinforcement Learning for 5*5 Multiplayer Go [6.222520876209623]
本稿では,検索と深層強化学習(DRL)を用いた最新のアルゴリズムの利用と解析を提案する。
我々は,2人以上のプレイヤーがいても,検索とDRLによりプレイレベルを向上できたことを示す。
論文 参考訳(メタデータ) (2024-05-23T07:44:24Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Learning in Mean Field Games: A Survey [44.93300994923148]
平均フィールドゲームズ(MFG)は、プレイヤーの数を無限に増やすために平均フィールド近似に依存する。
MFGにおけるリベリアと社会的最適化のための強化学習法に関する最近の研究
本稿では,MFGを正確に解くための古典的反復法に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:49:37Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Kernelized Multiplicative Weights for 0/1-Polyhedral Games: Bridging the
Gap Between Learning in Extensive-Form and Normal-Form Games [76.21916750766277]
カーネルトリックを用いて,最適乗算重み更新(OMWU)アルゴリズムをゲームツリーサイズ毎のリニア時間でEFGの正規形等価値にシミュレート可能であることを示す。
特に、KoMWUは、最終点収束を同時に保証する最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-01T06:28:51Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Can Reinforcement Learning Find Stackelberg-Nash Equilibria in
General-Sum Markov Games with Myopic Followers? [156.5760265539888]
我々は,マルチプレイヤーのジェネラルサムマルコフゲームについて,リーダーに指名されたプレイヤーとフォロワーに指名されたプレイヤーの1人を用いて研究した。
そのようなゲームに対して、我々のゴールは、政策対 $(pi*, nu*)$ であるスタックルバーグ・ナッシュ均衡 (SNE) を見つけることである。
オンラインとオフラインの両方でSNEを解くために,サンプル効率強化学習(RL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-12-27T05:41:14Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。