論文の概要: Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer
Games
- arxiv url: http://arxiv.org/abs/2204.11417v1
- Date: Mon, 25 Apr 2022 03:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:34:42.969554
- Title: Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer
Games
- Title(参考訳): マルチプレイヤーゲームにおける$o(\log t)$スワップ後悔を伴う非結合学習ダイナミクス
- Authors: Ioannis Anagnostides, Gabriele Farina, Christian Kroer, Chung-Wei Lee,
Haipeng Luo, Tuomas Sandholm
- Abstract要約: 我々は、すべてのプレイヤーが、時空不変の学習速度で我々のダイナミクスに従うとき、時間$T$までの時空二階パス長は、$O(log T)$で有界であることを示す。
提案する学習力学は, 直観的正規化学習と, 自己一致障壁を併用した新しい学習手法である。
- 参考スコア(独自算出の注目度): 121.50979258049135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we establish efficient and \emph{uncoupled} learning dynamics
so that, when employed by all players in a general-sum multiplayer game, the
\emph{swap regret} of each player after $T$ repetitions of the game is bounded
by $O(\log T)$, improving over the prior best bounds of $O(\log^4 (T))$. At the
same time, we guarantee optimal $O(\sqrt{T})$ swap regret in the adversarial
regime as well. To obtain these results, our primary contribution is to show
that when all players follow our dynamics with a \emph{time-invariant} learning
rate, the \emph{second-order path lengths} of the dynamics up to time $T$ are
bounded by $O(\log T)$, a fundamental property which could have further
implications beyond near-optimally bounding the (swap) regret. Our proposed
learning dynamics combine in a novel way \emph{optimistic} regularized learning
with the use of \emph{self-concordant barriers}. Further, our analysis is
remarkably simple, bypassing the cumbersome framework of higher-order
smoothness recently developed by Daskalakis, Fishelson, and Golowich
(NeurIPS'21).
- Abstract(参考訳): 本稿では,汎用マルチプレイヤーゲームにおいて,すべてのプレイヤーが使用する場合,ゲーム繰り返し後の各プレイヤーの「emph{swap regret}」を$O(\log T)$でバウンドし,前回の$O(\log^4 (T))$よりも優れた効率と「emph{uncoupled}」学習ダイナミクスを確立する。
同時に、我々は、敵体制においても最適な$o(\sqrt{t})$スワップ後悔を保証する。
これらの結果を得るために、我々の主な貢献は、すべてのプレイヤーが学習速度の \emph{time-invariant} で我々のダイナミクスに従うとき、T$までのダイナミクスの \emph{second-order path lengths} が$O(\log T)$で制限されていることを示すことである。
提案する学習ダイナミクスは,新しい方法である \emph{optimistic} 正規化学習と \emph{self-concordant barriers} を組み合わせる。
さらに,daskalakis,fishelson,golowich (neurips'21) が最近開発した高次滑らかさの煩雑な枠組みをバイパスして,解析は非常に単純である。
関連論文リスト
- Non-stationary Projection-free Online Learning with Dynamic and Adaptive
Regret Guarantees [36.746745619968024]
本研究では,非定常プロジェクションフリーオンライン学習について検討し,動的後悔と適応的後悔を選択して評価を行った。
我々の結果は、プロジェクションフリーオンライン学習における最初の一般的な動的後悔境界であり、既存の$mathcalO(T3/4)$static regretを復元することができる。
本稿では,$tildemathcalO(tau3/4)$ アダプティブリフレッシュバウンドを長さ$tauの任意の間隔で達成するためのプロジェクションフリーな手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:02:10Z) - Doubly Optimal No-Regret Learning in Monotone Games [10.760195409078591]
本研究では,スムーズなモノトーンゲームのための2倍最適非線形学習アルゴリズムを提案する。
このアルゴリズムは, 滑らかかつ凸な損失関数の下での対角的条件下での最適$O(sqrtT)$後悔と, (ii) 最適$O(frac1T)$最後の収束率をナッシュ平衡に達成する。
論文 参考訳(メタデータ) (2023-01-30T17:55:53Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。
先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z) - Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。
また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文 参考訳(メタデータ) (2021-11-09T16:50:18Z) - Near-Optimal No-Regret Learning in General Games [31.293412884145066]
マルチプレイヤー汎用ゲームにおいて,Optimistic Hedge が $rm poly(log T)$ regret を達成することを示す。
我々の境界の系は、最適化的ヘッジが一般ゲームにおいて$tildeOleft(frac 1Tright)$の速度で粗相関平衡に収束するということである。
論文 参考訳(メタデータ) (2021-08-16T06:53:02Z) - Is Reinforcement Learning More Difficult Than Bandits? A Near-optimal
Algorithm Escaping the Curse of Horizon [88.75843804630772]
エピソード強化学習は文脈的包帯を一般化する。
長期計画の地平線と未知の状態依存的な遷移は、サンプルの複雑さに若干の困難をもたらす。
MVPは$left(sqrtSAK + S2Aright)$ regretを楽しみ、$Omegaleft(sqrtSAK + S2Aright)$ lower bound of emphcontextual bandits to logarithmic termsに近づいている。
論文 参考訳(メタデータ) (2020-09-28T17:52:32Z) - Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
我々は,直接の監督なしに自己対決で最適な政策を学習するセルフプレイアルゴリズムに焦点をあてる。
本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T05:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。