論文の概要: From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization
- arxiv url: http://arxiv.org/abs/2002.08456v1
- Date: Wed, 19 Feb 2020 21:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:44:15.175076
- Title: From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization
- Title(参考訳): Poincar\'e Recurrence から Convergence へ:正規化による平衡探索
- Authors: Julien Perolat, Remi Munos, Jean-Baptiste Lespiau, Shayegan
Omidshafiei, Mark Rowland, Pedro Ortega, Neil Burch, Thomas Anthony, David
Balduzzi, Bart De Vylder, Georgios Piliouras, Marc Lanctot, Karl Tuyls
- Abstract要約: モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
- 参考スコア(独自算出の注目度): 49.368421783733815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we investigate the Follow the Regularized Leader dynamics in
sequential imperfect information games (IIG). We generalize existing results of
Poincar\'e recurrence from normal-form games to zero-sum two-player imperfect
information games and other sequential game settings. We then investigate how
adapting the reward (by adding a regularization term) of the game can give
strong convergence guarantees in monotone games. We continue by showing how
this reward adaptation technique can be leveraged to build algorithms that
converge exactly to the Nash equilibrium. Finally, we show how these insights
can be directly used to build state-of-the-art model-free algorithms for
zero-sum two-player Imperfect Information Games (IIG).
- Abstract(参考訳): 本稿では,逐次不完全情報ゲーム(IIG)における正規化リーダのダイナミクスの追跡について検討する。
通常のゲームからゼロサム2人の不完全な情報ゲームや他のシーケンシャルなゲーム設定へポインカーンの再帰の結果を一般化する。
次に,ゲームの報酬(正規化項を追加することにより)がモノトーンゲームにおいて強い収束保証を与えるかを検討する。
我々は、この報酬適応手法をいかにしてナッシュ均衡に正確に収束するアルゴリズムを構築することができるかを示す。
最後に,ゼロサム・ツープレイヤー情報ゲーム(iig)のための最先端のモデルフリーなアルゴリズム構築に,これらの洞察が直接利用できることを示す。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Abstracting Imperfect Information Away from Two-Player Zero-Sum Games [85.27865680662973]
Nayyar et al. (2013) は、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。
この研究は、ある正規化された平衡が上記の非対応問題を持たないことを示している。
これらの正規化された平衡はナッシュ平衡に任意に近づくことができるので、この結果は2つのプレイヤーゼロサムゲームを解くための新たな視点への扉を開く。
論文 参考訳(メタデータ) (2023-01-22T16:54:06Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Computing Nash Equilibria in Multiplayer DAG-Structured Stochastic Games
with Persistent Imperfect Information [1.7132914341329848]
永続的不完全情報を持つマルチプレイヤー汎用ゲームにおいて,ナッシュ均衡を近似するアルゴリズムを提案する。
新たな手法を用いることで,本ゲームにおけるナッシュ均衡を近似した戦略をアルゴリズムで計算できることが証明できる。
論文 参考訳(メタデータ) (2020-10-26T19:27:26Z) - Exponential Convergence of Gradient Methods in Concave Network Zero-sum
Games [6.129776019898013]
コンケーブネットワークゼロサムゲーム(NZSG)におけるナッシュ平衡の計算について検討する。
この一般化において,凸凹型2プレーヤゼロサムゲームの様々なゲーム理論的性質が保存されていることを示す。
論文 参考訳(メタデータ) (2020-07-10T16:56:56Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。