Fugu-MT 論文翻訳(概要): Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games

論文の概要: Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games

arxiv url: http://arxiv.org/abs/2204.11417v1
Date: Mon, 25 Apr 2022 03:20:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-26 15:34:42.969554
Title: Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games
Title（参考訳）: マルチプレイヤーゲームにおける$o(\log t)$スワップ後悔を伴う非結合学習ダイナミクス
Authors: Ioannis Anagnostides, Gabriele Farina, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Tuomas Sandholm
Abstract要約: 我々は、すべてのプレイヤーが、時空不変の学習速度で我々のダイナミクスに従うとき、時間$T$までの時空二階パス長は、$O(log T)$で有界であることを示す。提案する学習力学は, 直観的正規化学習と, 自己一致障壁を併用した新しい学習手法である。
参考スコア（独自算出の注目度）: 121.50979258049135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we establish efficient and \emph{uncoupled} learning dynamics so that, when employed by all players in a general-sum multiplayer game, the \emph{swap regret} of each player after $T$ repetitions of the game is bounded by $O(\log T)$, improving over the prior best bounds of $O(\log^4 (T))$. At the same time, we guarantee optimal $O(\sqrt{T})$ swap regret in the adversarial regime as well. To obtain these results, our primary contribution is to show that when all players follow our dynamics with a \emph{time-invariant} learning rate, the \emph{second-order path lengths} of the dynamics up to time $T$ are bounded by $O(\log T)$, a fundamental property which could have further implications beyond near-optimally bounding the (swap) regret. Our proposed learning dynamics combine in a novel way \emph{optimistic} regularized learning with the use of \emph{self-concordant barriers}. Further, our analysis is remarkably simple, bypassing the cumbersome framework of higher-order smoothness recently developed by Daskalakis, Fishelson, and Golowich (NeurIPS'21).
Abstract（参考訳）: 本稿では,汎用マルチプレイヤーゲームにおいて,すべてのプレイヤーが使用する場合,ゲーム繰り返し後の各プレイヤーの「emph{swap regret}」を$O(\log T)$でバウンドし,前回の$O(\log^4 (T))$よりも優れた効率と「emph{uncoupled}」学習ダイナミクスを確立する。同時に、我々は、敵体制においても最適な$o(\sqrt{t})$スワップ後悔を保証する。これらの結果を得るために、我々の主な貢献は、すべてのプレイヤーが学習速度の \emph{time-invariant} で我々のダイナミクスに従うとき、T$までのダイナミクスの \emph{second-order path lengths} が$O(\log T)$で制限されていることを示すことである。提案する学習ダイナミクスは,新しい方法である \emph{optimistic} 正規化学習と \emph{self-concordant barriers} を組み合わせる。さらに,daskalakis,fishelson,golowich (neurips'21) が最近開発した高次滑らかさの煩雑な枠組みをバイパスして,解析は非常に単純である。

関連論文リスト

Faster Rates for No-Regret Learning in General Games via Cautious Optimism [46.462843198107144]
我々は,マルチプレイヤーの汎用ゲームにおいて,O(n, d log T)$per-playerの後悔を実現する最初の未結合学習アルゴリズムを確立する。この結果は,Log-Regularized Lifted Optimistic FTRLで達成可能な$O(n, d log T)$ regretと比較して,$d$への依存を指数関数的に改善する。
論文参考訳（メタデータ） (2025-03-31T17:25:33Z)
Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback [60.610120215789976]
純粋な戦略ナッシュ均衡が存在するとき、$c$ は 0 となり、最適のインスタンス依存後悔境界となることを示す。また,本アルゴリズムは最終段階の収束性も享受し,ほぼ最適サンプルを用いて純粋な戦略ナッシュ均衡を同定することができる。
論文参考訳（メタデータ） (2025-02-24T20:20:06Z)
Corrupted Learning Dynamics in Games [62.73758165845971]
すべてのプレイヤーが楽観的な追従型リーダー(OFTRL)に従うと、平衡は$O(log T)$の速さで計算できる。本稿では,各プレイヤーが所定のアルゴリズムによって提案される戦略から逸脱する程度に依存する速度で,適応的に平衡を求める学習ダイナミクスを提案する。
論文参考訳（メタデータ） (2024-12-10T02:23:44Z)
Non-stationary Projection-free Online Learning with Dynamic and Adaptive Regret Guarantees [36.746745619968024]
本研究では,非定常プロジェクションフリーオンライン学習について検討し,動的後悔と適応的後悔を選択して評価を行った。我々の結果は、プロジェクションフリーオンライン学習における最初の一般的な動的後悔境界であり、既存の$mathcalO(T3/4)$static regretを復元することができる。本稿では,$tildemathcalO(tau3/4)$ アダプティブリフレッシュバウンドを長さ$tauの任意の間隔で達成するためのプロジェクションフリーな手法を提案する。
論文参考訳（メタデータ） (2023-05-19T15:02:10Z)
Doubly Optimal No-Regret Learning in Monotone Games [10.760195409078591]
本研究では,スムーズなモノトーンゲームのための2倍最適非線形学習アルゴリズムを提案する。このアルゴリズムは, 滑らかかつ凸な損失関数の下での対角的条件下での最適$O(sqrtT)$後悔と, (ii) 最適$O(frac1T)$最後の収束率をナッシュ平衡に達成する。
論文参考訳（メタデータ） (2023-01-30T17:55:53Z)
Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文参考訳（メタデータ） (2022-06-17T12:58:58Z)
Near-Optimal No-Regret Learning for Correlated Equilibria in Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文参考訳（メタデータ） (2021-11-11T01:19:53Z)
Logarithmic Regret from Sublinear Hints [76.87432703516942]
自然クエリモデルにより,アルゴリズムが$O(log T)$ regretsを$O(sqrtT)$ hintsで得ることを示す。また、$o(sqrtT)$ hintsは$Omega(sqrtT)$ regretより保証できないことも示しています。
論文参考訳（メタデータ） (2021-11-09T16:50:18Z)
Near-Optimal No-Regret Learning in General Games [31.293412884145066]
マルチプレイヤー汎用ゲームにおいて,Optimistic Hedge が $rm poly(log T)$ regret を達成することを示す。我々の境界の系は、最適化的ヘッジが一般ゲームにおいて$tildeOleft(frac 1Tright)$の速度で粗相関平衡に収束するということである。
論文参考訳（メタデータ） (2021-08-16T06:53:02Z)
Is Reinforcement Learning More Difficult Than Bandits? A Near-optimal Algorithm Escaping the Curse of Horizon [88.75843804630772]
エピソード強化学習は文脈的包帯を一般化する。長期計画の地平線と未知の状態依存的な遷移は、サンプルの複雑さに若干の困難をもたらす。 MVPは$left(sqrtSAK + S2Aright)$ regretを楽しみ、$Omegaleft(sqrtSAK + S2Aright)$ lower bound of emphcontextual bandits to logarithmic termsに近づいている。
論文参考訳（メタデータ） (2020-09-28T17:52:32Z)
Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
我々は,直接の監督なしに自己対決で最適な政策を学習するセルフプレイアルゴリズムに焦点をあてる。本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T05:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。