論文の概要: Tight last-iterate convergence rates for no-regret learning in
multi-player games
- arxiv url: http://arxiv.org/abs/2010.13724v1
- Date: Mon, 26 Oct 2020 17:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:18:07.969534
- Title: Tight last-iterate convergence rates for no-regret learning in
multi-player games
- Title(参考訳): マルチプレイヤーゲームにおける非regret学習におけるTight last-iterate convergence rate
- Authors: Noah Golowich, Sarath Pattathil, Constantinos Daskalakis
- Abstract要約: 定常的なステップサイズを持つ楽観的勾配(OG)アルゴリズムは,スムーズな単調ゲームにおいて最終定位レートが$O(1/sqrtT)であることを示す。
また、$O (1/sqrtT)$レートは、特別なケースとしてOGを含む全ての$p$-SCLIアルゴリズムに対して厳密であることを示す。
- 参考スコア(独自算出の注目度): 31.604950465209335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the question of obtaining last-iterate convergence rates for
no-regret learning algorithms in multi-player games. We show that the
optimistic gradient (OG) algorithm with a constant step-size, which is
no-regret, achieves a last-iterate rate of $O(1/\sqrt{T})$ with respect to the
gap function in smooth monotone games. This result addresses a question of
Mertikopoulos & Zhou (2018), who asked whether extra-gradient approaches (such
as OG) can be applied to achieve improved guarantees in the multi-agent
learning setting. The proof of our upper bound uses a new technique centered
around an adaptive choice of potential function at each iteration. We also show
that the $O(1/\sqrt{T})$ rate is tight for all $p$-SCLI algorithms, which
includes OG as a special case. As a byproduct of our lower bound analysis we
additionally present a proof of a conjecture of Arjevani et al. (2015) which is
more direct than previous approaches.
- Abstract(参考訳): マルチプレイヤーゲームにおける学習アルゴリズムにおいて,最終段階の収束率を求める。
定常的なステップサイズを持つ楽観的勾配(OG)アルゴリズムは,スムーズなモノトーンゲームにおけるギャップ関数に対して,O(1/\sqrt{T})$の最終定値レートを達成できることを示す。
この結果は、Mertikopoulos & Zhou (2018) の問題に対処し、マルチエージェント学習環境における保証を改善するために、(OGのような)漸進的なアプローチを適用することができるかどうかを問うた。
上界の証明は、各反復におけるポテンシャル関数の適応的選択を中心にした新しい手法を用いる。
また、O(1/\sqrt{T})$レートは、特別なケースとしてOGを含む全ての$p$-SCLIアルゴリズムに対して厳密であることを示す。
下限解析の副産物として、さらに以前のアプローチよりも直接的であるarjevani et al. (2015) の予想の証明を示す。
関連論文リスト
- On the SAGA algorithm with decreasing step [0.0]
本稿では,Gradient DescentアルゴリズムとSAGAアルゴリズムを補間する新しい$lambda$-SAGAアルゴリズムを提案する。
我々は$lambda$-SAGAアルゴリズムの中央極限定理を確立する。
非漸近的な$mathbbLp$収束率を提供する。
論文 参考訳(メタデータ) (2024-10-02T12:04:36Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Last-Iterate Convergence Properties of Regret-Matching Algorithms in
Games [72.43065138581589]
RM$+$ の様々な一般的な変種の最後の点収束特性について検討する。
本稿では, RM$+$の同時適用, RM$+$の交互化, RM$+$の予測, 最終項目収束保証の欠如など, 実用的バリエーションのいくつかを数値的に示す。
そして、スムーズな手法に基づく最近のアルゴリズムの変種は、最終点収束を楽しむことを証明した。
論文 参考訳(メタデータ) (2023-11-01T17:34:58Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Doubly Optimal No-Regret Learning in Monotone Games [10.760195409078591]
本研究では,スムーズなモノトーンゲームのための2倍最適非線形学習アルゴリズムを提案する。
このアルゴリズムは, 滑らかかつ凸な損失関数の下での対角的条件下での最適$O(sqrtT)$後悔と, (ii) 最適$O(frac1T)$最後の収束率をナッシュ平衡に達成する。
論文 参考訳(メタデータ) (2023-01-30T17:55:53Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。
先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - Doubly Optimal No-Regret Online Learning in Strongly Monotone Games with Bandit Feedback [29.553652241608997]
本研究では,テキストモオと強いモノトーンゲームの研究を行い,その学習方法について検討した。
我々はまず,新しい帯域学習アルゴリズムを構築し,$tildeTheta(nsqrtT)$の単一エージェント最適後悔を実現することを示す。
そこで我々は,このオープンな問題を解決し,広範にわたるバンディットゲーム理論学習に寄与した。
論文 参考訳(メタデータ) (2021-12-06T08:27:54Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。