論文の概要: Near-Optimal No-Regret Learning for General Convex Games
- arxiv url: http://arxiv.org/abs/2206.08742v2
- Date: Mon, 20 Jun 2022 06:58:54 GMT
- Title: Near-Optimal No-Regret Learning for General Convex Games
- Title(参考訳): 一般凸ゲームにおける近似最適no-regret学習
- Authors: Gabriele Farina, Ioannis Anagnostides, Haipeng Luo, Chung-Wei Lee,
Christian Kroer, Tuomas Sandholm
- Abstract要約: 一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
- 参考スコア(独自算出の注目度): 121.50979258049135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent line of work has established uncoupled learning dynamics such that,
when employed by all players in a game, each player's \emph{regret} after $T$
repetitions grows polylogarithmically in $T$, an exponential improvement over
the traditional guarantees within the no-regret framework. However, so far
these results have only been limited to certain classes of games with
structured strategy spaces -- such as normal-form and extensive-form games. The
question as to whether $O(\text{polylog} T)$ regret bounds can be obtained for
general convex and compact strategy sets -- which occur in many fundamental
models in economics and multiagent systems -- while retaining efficient
strategy updates is an important question. In this paper, we answer this in the
positive by establishing the first uncoupled learning algorithm with $O(\log
T)$ per-player regret in general \emph{convex games}, that is, games with
concave utility functions supported on arbitrary convex and compact strategy
sets. Our learning dynamics are based on an instantiation of optimistic
follow-the-regularized-leader over an appropriately \emph{lifted} space using a
\emph{self-concordant regularizer} that is, peculiarly, not a barrier for the
feasible region. Further, our learning dynamics are efficiently implementable
given access to a proximal oracle for the convex strategy set, leading to
$O(\log\log T)$ per-iteration complexity; we also give extensions when access
to only a \emph{linear} optimization oracle is assumed. Finally, we adapt our
dynamics to guarantee $O(\sqrt{T})$ regret in the adversarial regime. Even in
those special cases where prior results apply, our algorithm improves over the
state-of-the-art regret bounds either in terms of the dependence on the number
of iterations or on the dimension of the strategy sets.
- Abstract(参考訳): 最近の一連の研究は、ゲーム内のすべてのプレイヤーが採用する際、T$の繰り返し後の各プレイヤーの「emph{regret}」は、非regretフレームワーク内の従来の保証よりも指数関数的に向上する、非結合学習力学を確立している。
O(\text{polylog} T)$ regret bounds が一般的な凸やコンパクトな戦略集合に対して得られるかどうかという問題は、効率的な戦略更新を維持しながら、経済学やマルチエージェントシステムの多くの基本モデルで発生する。
本稿では,任意の凸とコンパクトな戦略セットでサポートされた凹凸ユーティリティ関数を持つゲームにおいて,O(\log T)$ per-player regreterという最初の未結合学習アルゴリズムを確立することで,これを肯定的に解する。
我々の学習力学は、適度に \emph{lifted} 空間上の楽観的な従順化リーダのインスタンス化に基づいており、これは特に、実現可能な領域の障壁ではない。
さらに、私たちの学習ダイナミクスは、凸戦略セットの近辺のオラクルへのアクセスを前提に、効率的に実装でき、o(\log\log t)$ 1イテレーションの複雑さをもたらします。
