論文の概要: Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms
- arxiv url: http://arxiv.org/abs/2406.10631v2
- Date: Tue, 21 Jan 2025 18:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:27:56.629766
- Title: Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms
- Title(参考訳): ゲームにおける学習の最終段階の高速収束には、忘れられたアルゴリズムが必要である
- Authors: Yang Cai, Gabriele Farina, Julien Grand-Clément, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Weiqiang Zheng,
- Abstract要約: オンライン学習によるセルフプレイは、大規模な2人プレイのゼロサムゲームを解くための重要な方法の1つだ。
- 参考スコア(独自算出の注目度): 71.73971094342349
- License:
- Abstract: Self-play via online learning is one of the premier ways to solve large-scale two-player zero-sum games, both in theory and practice. Particularly popular algorithms include optimistic multiplicative weights update (OMWU) and optimistic gradient-descent-ascent (OGDA). While both algorithms enjoy $O(1/T)$ ergodic convergence to Nash equilibrium in two-player zero-sum games, OMWU offers several advantages including logarithmic dependence on the size of the payoff matrix and $\widetilde{O}(1/T)$ convergence to coarse correlated equilibria even in general-sum games. However, in terms of last-iterate convergence in two-player zero-sum games, an increasingly popular topic in this area, OGDA guarantees that the duality gap shrinks at a rate of $O(1/\sqrt{T})$, while the best existing last-iterate convergence for OMWU depends on some game-dependent constant that could be arbitrarily large. This begs the question: is this potentially slow last-iterate convergence an inherent disadvantage of OMWU, or is the current analysis too loose? Somewhat surprisingly, we show that the former is true. More generally, we prove that a broad class of algorithms that do not forget the past quickly all suffer the same issue: for any arbitrarily small $\delta>0$, there exists a $2\times 2$ matrix game such that the algorithm admits a constant duality gap even after $1/\delta$ rounds. This class of algorithms includes OMWU and other standard optimistic follow-the-regularized-leader algorithms.
- Abstract(参考訳): オンライン学習によるセルフプレイは、理論と実践の両方において、大規模な2プレイヤーゼロサムゲームを解くための重要な方法の1つである。
特に一般的なアルゴリズムには、楽観的乗法重み更新 (OMWU) と楽観的勾配降下 (OGDA) がある。
どちらのアルゴリズムも、2つのプレイヤーゼロサムゲームにおけるナッシュ均衡へのエルゴード収束を$O(1/T)$ ergodic convergence としているが、OMWUは、ペイオフ行列のサイズに対する対数依存や、一般サムゲームにおいても粗相関平衡への$\widetilde{O}(1/T)$ convergence などの利点がある。
より一般に、過去を早く忘れない幅広いアルゴリズムのクラスは、すべて同じ問題に悩まされていることを証明している:任意の任意に小さい$\delta>0$に対して、そのアルゴリズムが1/\delta$ラウンドの後にも一定の双対性ギャップを許容する2.2\times 2$行列ゲームが存在する。
- Last-Iterate Convergence Properties of Regret-Matching Algorithms in
Games [72.43065138581589]
RM$+$ の様々な一般的な変種の最後の点収束特性について検討する。
本稿では, RM$+$の同時適用, RM$+$の交互化, RM$+$の予測, 最終項目収束保証の欠如など, 実用的バリエーションのいくつかを数値的に示す。
論文 参考訳(メタデータ) (2023-11-01T17:34:58Z) - Doubly Optimal No-Regret Learning in Monotone Games [10.760195409078591]
このアルゴリズムは, 滑らかかつ凸な損失関数の下での対角的条件下での最適$O(sqrtT)$後悔と, (ii) 最適$O(frac1T)$最後の収束率をナッシュ平衡に達成する。
論文 参考訳(メタデータ) (2023-01-30T17:55:53Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Almost Optimal Algorithms for Two-player Markov Games with Linear
Function Approximation [92.99933928528797]
我々は、Nash-UCRL-VTR が $tildeO(dHsqrtT)$ regret を確実に達成できることを示し、$d$ は線型関数次元である。
論文 参考訳(メタデータ) (2021-02-15T09:09:16Z) - Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T05:00:13Z)