Fugu-MT 論文翻訳(概要): Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games

論文の概要: Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games

arxiv url: http://arxiv.org/abs/2208.09855v3
Date: Fri, 26 May 2023 04:50:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-30 00:07:33.989538
Title: Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games
Title（参考訳）: ツープレイヤーゼロサムゲームにおける完全・雑音フィードバックによる最終Iterate Convergence
Authors: Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki
Abstract要約: M2WUは突然変異項を反復的に適応することで正確なナッシュ平衡に収束することを示す。我々は,M2WUがMWUやOMWUよりも利用性と収束率が高いことを実証的に確認した。
参考スコア（独自算出の注目度）: 8.037452358542465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper proposes Mutation-Driven Multiplicative Weights Update (M2WU) for learning an equilibrium in two-player zero-sum normal-form games and proves that it exhibits the last-iterate convergence property in both full and noisy feedback settings. In the former, players observe their exact gradient vectors of the utility functions. In the latter, they only observe the noisy gradient vectors. Even the celebrated Multiplicative Weights Update (MWU) and Optimistic MWU (OMWU) algorithms may not converge to a Nash equilibrium with noisy feedback. On the contrary, M2WU exhibits the last-iterate convergence to a stationary point near a Nash equilibrium in both feedback settings. We then prove that it converges to an exact Nash equilibrium by iteratively adapting the mutation term. We empirically confirm that M2WU outperforms MWU and OMWU in exploitability and convergence rates.
Abstract（参考訳）: 本稿では,2プレイヤーゼロサム正規形式ゲームにおける平衡学習のためのM2WU(Mutation-Driven Multiplicative Weights Update)を提案する。前者では、プレイヤーはユーティリティ関数の正確な勾配ベクトルを観測する。後者では、ノイズのある勾配ベクトルのみを観測する。有望な乗法重み更新(MWU)や最適化MWU(OMWU)アルゴリズムでさえ、ノイズフィードバックを伴うナッシュ平衡に収束しない可能性がある。反対に、M2WUは両方のフィードバック設定においてナッシュ平衡に近い静止点に最終点収束を示す。次に、突然変異項を反復的に適応させることにより、正確なナッシュ平衡に収束することが証明される。我々は,M2WUがMWUやOMWUよりも利用性と収束率が高いことを実証的に確認した。

関連論文リスト

Scale-Invariant Fast Convergence in Games [67.02769061793619]
我々は,スケールフリーでもスケール不変でも,高速収束を実現する学習力学を開発した。 2プレーヤゼロサムゲームに対しては、$tildeO(A_mathrmdiff)$で有界な外部後悔を伴うスケールフリーかつスケール不変のダイナミクスが得られる。マルチプレイヤーの汎用ゲームでは、過去の観測に基づいて観察された勾配をクリップする2倍のクリッピングと呼ばれる手法によって、スケールフリーの学習も可能となる。
論文参考訳（メタデータ） (2026-02-12T11:57:20Z)
Convergence of Time-Averaged Mean Field Gradient Descent Dynamics for Continuous Multi-Player Zero-Sum Games [4.910937238451485]
平均場を相互作用するプレイヤーを持つゼロサムゲームに対する混合ナッシュ均衡(MNE)は、最近機械学習に大きな関心を寄せている。平均場降下勾配ダイナミクスを用いて、K$とKgeq 2$のプレイヤーを含むゼロサムゲームのMNEを求める。 MNEを見つけるための従来の2つのスケールのアプローチとは異なり、我々のアプローチはすべてのプレイヤータイプを同じ時間スケールで扱う。
論文参考訳（メタデータ） (2025-05-12T15:12:27Z)
On Separation Between Best-Iterate, Random-Iterate, and Last-Iterate Convergence of Learning in Games [71.73971094342349]
ゲームにおける学習力学の非エルゴード収束は、理論と実践の両方において重要であるため、広く研究されている。近年の研究では、最適乗算重み更新を含む学習力学の幅広いクラスが、任意に遅い最終項目収束を示すことが示されている。 OMWUは、同じクラスのゲームにおいて、その遅い最終点収束とは対照的に、$O(T-1/6)$est-iterate convergence rateを達成することを示す。
論文参考訳（メタデータ） (2025-03-04T17:49:24Z)
Games played by Exponential Weights Algorithms [0.0]
各プレイヤーは、初期混合動作と固定学習率を特徴とする指数重み付けアルゴリズムを使用する。厳密なナッシュ均衡が存在するときは常に、次の段階で厳密なナッシュ均衡を行う確率は、ほぼ確実に0または1に収束することを示す。
論文参考訳（メタデータ） (2024-07-09T08:49:51Z)
Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms [71.73971094342349]
オンライン学習によるセルフプレイは、大規模な2人プレイのゼロサムゲームを解くための重要な方法の1つだ。我々は,OMWUが支払行列のサイズに対数依存するなど,いくつかの利点があることを示した。我々は、過去のことをすぐに忘れない幅広い種類のアルゴリズムが、すべて同じ問題に悩まされていることを証明している。
論文参考訳（メタデータ） (2024-06-15T13:26:17Z)
Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文参考訳（メタデータ） (2023-12-19T11:34:10Z)
Payoff-based learning with matrix multiplicative weights in quantum games [35.111876815522116]
量子ゲーム(および半定値ゲーム)における学習の問題を、スカラーでペイオフに基づくフィードバックを用いて研究する。本稿では,情報フレームワークに合わせた最小情報行列乗法(3MW)を提案する。決定論的ペイオフフィードバックを持つ3MW法は,量子ミニマックスゲームにおけるバニラ,フル情報MMWアルゴリズムの収束率を保っていることを示す。
論文参考訳（メタデータ） (2023-11-04T14:56:17Z)
Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文参考訳（メタデータ） (2023-02-20T16:05:04Z)
Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。我々はNash equilibria(NE)の解の概念に焦点をあてる。このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文参考訳（メタデータ） (2021-11-07T21:15:35Z)
Consensus Multiplicative Weights Update: Learning to Learn using Projector-based Game Signatures [8.08640000394814]
2つ目のアルゴリズムである textitConsensus MWU を導入し、局所収束を証明し、OMWU よりも高速で堅牢な収束を経験的に示す。提案アルゴリズムは,新たな対象であるテクスチシプレックス・ヘシアンの重要性と,ゲームとベクトルの(固有)空間との相互作用を示す。
論文参考訳（メタデータ） (2021-06-04T17:26:54Z)
Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文参考訳（メタデータ） (2020-06-16T20:53:04Z)
Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文参考訳（メタデータ） (2020-05-28T13:47:09Z)
From Poincar\'e Recurrence to Convergence in Imperfect Information Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文参考訳（メタデータ） (2020-02-19T21:36:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。