論文の概要: Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games
- arxiv url: http://arxiv.org/abs/2208.09747v1
- Date: Sat, 20 Aug 2022 20:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:29:03.374356
- Title: Near-Optimal $\Phi$-Regret Learning in Extensive-Form Games
- Title(参考訳): 総合型ゲームにおける準最適$\Phi$-regret学習
- Authors: Ioannis Anagnostides, Gabriele Farina, Tuomas Sandholm
- Abstract要約: 我々は,エフェトリガーの後悔が遊びの繰り返しの後に$O(log T)$として大きくなるように,効率的で非結合な学習力学を確立する。
- 参考スコア(独自算出の注目度): 95.91027522413265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we establish efficient and uncoupled learning dynamics so
that, when employed by all players in multiplayer perfect-recall
imperfect-information extensive-form games, the \emph{trigger regret} of each
player grows as $O(\log T)$ after $T$ repetitions of play. This improves
exponentially over the prior best known trigger-regret bound of $O(T^{1/4})$,
and settles a recent open question by Bai et al. (2022). As an immediate
consequence, we guarantee convergence to the set of \emph{extensive-form
correlated equilibria} and \emph{coarse correlated equilibria} at a
near-optimal rate of $\frac{\log T}{T}$.
Building on prior work, at the heart of our construction lies a more general
result regarding fixed points deriving from rational functions with
\emph{polynomial degree}, a property that we establish for the fixed points of
\emph{(coarse) trigger deviation functions}. Moreover, our construction
leverages a refined \textit{regret circuit} for the convex hull, which --
unlike prior guarantees -- preserves the \emph{RVU property} introduced by
Syrgkanis et al. (NIPS, 2015); this observation has an independent interest in
establishing near-optimal regret under learning dynamics based on a CFR-type
decomposition of the regret.
- Abstract(参考訳): 本稿では,マルチプレイヤーの完全リコール不完全情報広義ゲームにおいて,各プレイヤーの「emph{trigger regret}」が,プレイの繰り返し後に$O(\log T)$として成長するように,効率的で非結合な学習ダイナミクスを確立する。
これは、以前のよく知られた$O(T^{1/4})$よりも指数関数的に改善し、Bai et al. (2022) による最近の開問題に解決する。
即ち、ほぼ最適に近いレートで \emph{extensive-form correlationd equilibria} と \emph{coarse correlationd equilibria} の組への収束を、$\frac{\log t}{t}$ で保証する。
先行研究に基づいて、我々の構成の核心にあるより一般的な結果として、不動点に関するより一般的な結果が、 \emph{polynomial degree} を持つ有理関数から導かれる、すなわち、 \emph{(coarse) トリガー偏差関数の不動点に対して確立される性質である。
さらに, 先行保証とは異なり, syrgkanis らによって導入された \emph{rvu property} (nips, 2015) を保存した凸包の洗練された \textit{regret circuit} を活用する。
