論文の概要: Cautious Optimism: A Meta-Algorithm for Near-Constant Regret in General Games
- arxiv url: http://arxiv.org/abs/2506.05005v1
- Date: Thu, 05 Jun 2025 13:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.719467
- Title: Cautious Optimism: A Meta-Algorithm for Near-Constant Regret in General Games
- Title(参考訳): Cautious Optimism: 一般競技における準安定回帰のメタアルゴリズム
- Authors: Ashkan Soleymani, Georgios Piliouras, Gabriele Farina,
- Abstract要約: 本研究では,学習者の適応的ペアリングによる学習促進は孤立的な現象ではないことを示す。
汎用ゲームにおいて,より高速な正規化学習を実現するフレームワークであるemphCautious Optimismを導入する。
- 参考スコア(独自算出の注目度): 46.462843198107144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work [Soleymani et al., 2025] introduced a variant of Optimistic Multiplicative Weights Updates (OMWU) that adaptively controls the learning pace in a dynamic, non-monotone manner, achieving new state-of-the-art regret minimization guarantees in general games. In this work, we demonstrate that no-regret learning acceleration through adaptive pacing of the learners is not an isolated phenomenon. We introduce \emph{Cautious Optimism}, a framework for substantially faster regularized learning in general games. Cautious Optimism takes as input any instance of Follow-the-Regularized-Leader (FTRL) and outputs an accelerated no-regret learning algorithm by pacing the underlying FTRL with minimal computational overhead. Importantly, we retain uncoupledness (learners do not need to know other players' utilities). Cautious Optimistic FTRL achieves near-optimal $O_T(\log T)$ regret in diverse self-play (mixing-and-matching regularizers) while preserving the optimal $O(\sqrt{T})$ regret in adversarial scenarios. In contrast to prior works (e.g. Syrgkanis et al. [2015], Daskalakis et al. [2021]), our analysis does not rely on monotonic step-sizes, showcasing a novel route for fast learning in general games.
- Abstract(参考訳): 近年の[Soleymani et al , 2025] では, 動的で非単調な方法で学習速度を適応的に制御し, 一般ゲームにおける新たな後悔最小化保証を実現する, 最適乗算重み更新 (OMWU) が導入された。
本研究では,学習者の適応的ペーシングによる学習促進が孤立的な現象ではないことを示す。
一般ゲームにおいて,より高速な正規化学習のためのフレームワークである「emph{Cautious Optimism}」を導入する。
Cautious Optimismは、FTRL(Follow-the-Regularized-Leader)の任意のインスタンスを入力として、基礎となるFTRLを最小の計算オーバーヘッドでペイシングすることで、高速化された非回帰学習アルゴリズムを出力する。
重要なのは、未結合性を維持することです(学習者は他のプレイヤーのユーティリティを知る必要はありません)。
Cautious Optimistic FTRLは、最適な$O(\sqrt{T})$後悔を敵のシナリオで保ちながら、多様な自己プレイ(混合整合正規化器)においてほぼ最適の$O_T(\log T)$後悔を達成する。
以前の作品 (e g Syrgkanis et al [2015], Daskalakis et al [2021]) とは対照的に、我々の分析は単調なステップサイズに依存しておらず、一般ゲームにおける高速学習のための新しいルートを示している。
関連論文リスト
- Faster Rates for No-Regret Learning in General Games via Cautious Optimism [46.462843198107144]
我々は,マルチプレイヤーの汎用ゲームにおいて,O(n, d log T)$per-playerの後悔を実現する最初の未結合学習アルゴリズムを確立する。
この結果は,Log-Regularized Lifted Optimistic FTRLで達成可能な$O(n, d log T)$ regretと比較して,$d$への依存を指数関数的に改善する。
論文 参考訳(メタデータ) (2025-03-31T17:25:33Z) - Achieving Better Regret against Strategic Adversaries [15.51709428653595]
本研究では,学習者が相手の行動について余分な知識を持つオンライン学習問題について検討する。
我々は,正規化リーダ(AFTRL)とProd-Best Response(Prod-BR)の2つの新しいオンライン学習アルゴリズムを提案する。
AFTRLは、外部の後悔に対して$O(1)$、または$O(1)$、遠回りの後悔に対して$O(1)$を達成する。
論文 参考訳(メタデータ) (2023-02-13T19:34:36Z) - Doubly Optimal No-Regret Learning in Monotone Games [10.760195409078591]
本研究では,スムーズなモノトーンゲームのための2倍最適非線形学習アルゴリズムを提案する。
このアルゴリズムは, 滑らかかつ凸な損失関数の下での対角的条件下での最適$O(sqrtT)$後悔と, (ii) 最適$O(frac1T)$最後の収束率をナッシュ平衡に達成する。
論文 参考訳(メタデータ) (2023-01-30T17:55:53Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。
先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - Strategizing against Learners in Bayesian Games [74.46970859427907]
プレイヤーの1人である学習者が無学習の学習戦略を採用する2人プレイヤゲームについて検討した。
一般のベイズゲームでは,学習者と学習者の双方の報酬の支払いが,そのタイプに依存する可能性がある。
論文 参考訳(メタデータ) (2022-05-17T18:10:25Z) - Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer
Games [121.50979258049135]
我々は、すべてのプレイヤーが、時空不変の学習速度で我々のダイナミクスに従うとき、時間$T$までの時空二階パス長は、$O(log T)$で有界であることを示す。
提案する学習力学は, 直観的正規化学習と, 自己一致障壁を併用した新しい学習手法である。
論文 参考訳(メタデータ) (2022-04-25T03:20:16Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。