論文の概要: Last-Iterate Convergence with Full- and Noisy-Information Feedback in
Two-Player Zero-Sum Games
- arxiv url: http://arxiv.org/abs/2208.09855v1
- Date: Sun, 21 Aug 2022 09:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:27:28.846267
- Title: Last-Iterate Convergence with Full- and Noisy-Information Feedback in
Two-Player Zero-Sum Games
- Title(参考訳): 2プレイヤーゼロサムゲームにおけるフル・ノイズ情報フィードバックによる最終Iterate Convergence
- Authors: Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi
Iwasaki
- Abstract要約: 本稿では,2プレイヤーゼロサム正規形式ゲームにおける平衡学習のための突然変異駆動型乗算重み更新(M2WU)を提案する。
実測情報と雑音情報の両方のフィードバック設定において、最終定値収束性を示すことを示す。
我々は、M2WUが既存のアルゴリズムよりもエクスプロイラビリティと収束率で優れていることを実証的に確認する。
- 参考スコア(独自算出の注目度): 8.037452358542465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The theory of learning in games is prominent in the AI community, motivated
by several rising applications such as multi-agent reinforcement learning and
Generative Adversarial Networks. We propose Mutation-driven Multiplicative
Weights Update (M2WU) for learning an equilibrium in two-player zero-sum
normal-form games and prove that it exhibits the last-iterate convergence
property in both full- and noisy-information feedback settings. In the
full-information feedback setting, the players observe their exact gradient
vectors of the utility functions. On the other hand, in the noisy-information
feedback setting, they can only observe the noisy gradient vectors. Existing
algorithms, including the well-known Multiplicative Weights Update (MWU) and
Optimistic MWU (OMWU) algorithms, fail to converge to a Nash equilibrium with
noisy-information feedback. In contrast, M2WU exhibits the last-iterate
convergence to a stationary point near a Nash equilibrium in both of the
feedback settings. We then prove that it converges to an exact Nash equilibrium
by adapting the mutation term iteratively. We empirically confirm that M2WU
outperforms MWU and OMWU in exploitability and convergence rates.
- Abstract(参考訳): ゲームにおける学習の理論はAIコミュニティで顕著であり、マルチエージェント強化学習やジェネレーティブ・アドバイザリアル・ネットワークといったいくつかのアプリケーションによって動機付けられている。
両プレイヤーのゼロサム正規形式ゲームにおける平衡学習のためのM2WU(Mutation-driven Multiplicative Weights Update)を提案する。
全情報フィードバック設定では、プレイヤーはユーティリティ関数の正確な勾配ベクトルを観測する。
一方,ノイズ情報フィードバック設定では,雑音勾配ベクトルのみを観測できる。
既知の乗算重み更新(MWU)や最適化MWU(OMWU)アルゴリズムを含む既存のアルゴリズムは、ノイズ情報フィードバックでナッシュ平衡に収束しない。
対照的に、M2WUは両方のフィードバック設定においてナッシュ平衡付近の静止点に最終点収束を示す。
次に、突然変異項を反復的に適応することにより、正確なナッシュ平衡に収束することを証明する。
我々は,M2WUがMWUやOMWUよりも利用性と収束率が高いことを実証的に確認した。
関連論文リスト
- Games played by Exponential Weights Algorithms [0.0]
各プレイヤーは、初期混合動作と固定学習率を特徴とする指数重み付けアルゴリズムを使用する。
厳密なナッシュ均衡が存在するときは常に、次の段階で厳密なナッシュ均衡を行う確率は、ほぼ確実に0または1に収束することを示す。
論文 参考訳(メタデータ) (2024-07-09T08:49:51Z) - Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms [71.73971094342349]
オンライン学習によるセルフプレイは、大規模な2人プレイのゼロサムゲームを解くための重要な方法の1つだ。
我々は,OMWUが支払行列のサイズに対数依存するなど,いくつかの利点があることを示した。
我々は、過去のことをすぐに忘れない幅広い種類のアルゴリズムが、すべて同じ問題に悩まされていることを証明している。
論文 参考訳(メタデータ) (2024-06-15T13:26:17Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Payoff-based learning with matrix multiplicative weights in quantum
games [35.111876815522116]
量子ゲーム(および半定値ゲーム)における学習の問題を、スカラーでペイオフに基づくフィードバックを用いて研究する。
本稿では,情報フレームワークに合わせた最小情報行列乗法(3MW)を提案する。
決定論的ペイオフフィードバックを持つ3MW法は,量子ミニマックスゲームにおけるバニラ,フル情報MMWアルゴリズムの収束率を保っていることを示す。
論文 参考訳(メタデータ) (2023-11-04T14:56:17Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Consensus Multiplicative Weights Update: Learning to Learn using
Projector-based Game Signatures [8.08640000394814]
2つ目のアルゴリズムである textitConsensus MWU を導入し、局所収束を証明し、OMWU よりも高速で堅牢な収束を経験的に示す。
提案アルゴリズムは,新たな対象であるテクスチシプレックス・ヘシアンの重要性と,ゲームとベクトルの(固有)空間との相互作用を示す。
論文 参考訳(メタデータ) (2021-06-04T17:26:54Z) - Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。
平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。
任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2020-06-16T20:53:04Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。