論文の概要: Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer
- arxiv url: http://arxiv.org/abs/2204.11417v1
- Date: Mon, 25 Apr 2022 03:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:34:42.969554
- Title: Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer
- Title(参考訳): マルチプレイヤーゲームにおける$o(\log t)$スワップ後悔を伴う非結合学習ダイナミクス
- Authors: Ioannis Anagnostides, Gabriele Farina, Christian Kroer, Chung-Wei Lee,
Haipeng Luo, Tuomas Sandholm
- Abstract要約: 我々は、すべてのプレイヤーが、時空不変の学習速度で我々のダイナミクスに従うとき、時間$T$までの時空二階パス長は、$O(log T)$で有界であることを示す。
提案する学習力学は, 直観的正規化学習と, 自己一致障壁を併用した新しい学習手法である。
- 参考スコア(独自算出の注目度): 121.50979258049135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we establish efficient and \emph{uncoupled} learning dynamics
so that, when employed by all players in a general-sum multiplayer game, the
\emph{swap regret} of each player after $T$ repetitions of the game is bounded
by $O(\log T)$, improving over the prior best bounds of $O(\log^4 (T))$. At the
same time, we guarantee optimal $O(\sqrt{T})$ swap regret in the adversarial
regime as well. To obtain these results, our primary contribution is to show
that when all players follow our dynamics with a \emph{time-invariant} learning
rate, the \emph{second-order path lengths} of the dynamics up to time $T$ are
bounded by $O(\log T)$, a fundamental property which could have further
implications beyond near-optimally bounding the (swap) regret. Our proposed
learning dynamics combine in a novel way \emph{optimistic} regularized learning
with the use of \emph{self-concordant barriers}. Further, our analysis is
remarkably simple, bypassing the cumbersome framework of higher-order
smoothness recently developed by Daskalakis, Fishelson, and Golowich
- Abstract(参考訳): 本稿では,汎用マルチプレイヤーゲームにおいて,すべてのプレイヤーが使用する場合,ゲーム繰り返し後の各プレイヤーの「emph{swap regret}」を$O(\log T)$でバウンドし,前回の$O(\log^4 (T))$よりも優れた効率と「emph{uncoupled}」学習ダイナミクスを確立する。
これらの結果を得るために、我々の主な貢献は、すべてのプレイヤーが学習速度の \emph{time-invariant} で我々のダイナミクスに従うとき、T$までのダイナミクスの \emph{second-order path lengths} が$O(\log T)$で制限されていることを示すことである。
提案する学習ダイナミクスは,新しい方法である \emph{optimistic} 正規化学習と \emph{self-concordant barriers} を組み合わせる。
さらに,daskalakis,fishelson,golowich (neurips'21) が最近開発した高次滑らかさの煩雑な枠組みをバイパスして,解析は非常に単純である。
- Corrupted Learning Dynamics in Games [62.73758165845971]
すべてのプレイヤーが楽観的な追従型リーダー(OFTRL)に従うと、平衡は$O(log T)$の速さで計算できる。
論文 参考訳(メタデータ) (2024-12-10T02:23:44Z) - Non-stationary Projection-free Online Learning with Dynamic and Adaptive
Regret Guarantees [36.746745619968024]
我々の結果は、プロジェクションフリーオンライン学習における最初の一般的な動的後悔境界であり、既存の$mathcalO(T3/4)$static regretを復元することができる。
本稿では,$tildemathcalO(tau3/4)$ アダプティブリフレッシュバウンドを長さ$tauの任意の間隔で達成するためのプロジェクションフリーな手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:02:10Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z) - Near-Optimal No-Regret Learning in General Games [31.293412884145066]
マルチプレイヤー汎用ゲームにおいて,Optimistic Hedge が $rm poly(log T)$ regret を達成することを示す。
我々の境界の系は、最適化的ヘッジが一般ゲームにおいて$tildeOleft(frac 1Tright)$の速度で粗相関平衡に収束するということである。
論文 参考訳(メタデータ) (2021-08-16T06:53:02Z) - Is Reinforcement Learning More Difficult Than Bandits? A Near-optimal
Algorithm Escaping the Curse of Horizon [88.75843804630772]
MVPは$left(sqrtSAK + S2Aright)$ regretを楽しみ、$Omegaleft(sqrtSAK + S2Aright)$ lower bound of emphcontextual bandits to logarithmic termsに近づいている。
論文 参考訳(メタデータ) (2020-09-28T17:52:32Z) - Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T05:00:13Z)