論文の概要: Last-Iterate Guarantees for Learning in Co-coercive Games
- arxiv url: http://arxiv.org/abs/2604.19065v1
- Date: Tue, 21 Apr 2026 04:18:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.614564
- Title: Last-Iterate Guarantees for Learning in Co-coercive Games
- Title(参考訳): 協調型ゲームにおける最終段階の学習保証
- Authors: Siddharth Chandak, Ramanan Tamizholi, Nicholas Bambos,
- Abstract要約: 我々は,ノイズフィードバックの下で,コヒーシブゲームにおけるバニラ降下に対する有限時間最後の保証を確立する。
これは強い単調ゲームよりも一般的である幅広い種類のゲームである。
- 参考スコア(独自算出の注目度): 5.7071219882414885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We establish finite-time last-iterate guarantees for vanilla stochastic gradient descent in co-coercive games under noisy feedback. This is a broad class of games that is more general than strongly monotone games, allows for multiple Nash equilibria, and includes examples such as quadratic games with negative semidefinite interaction matrices and potential games with smooth concave potentials. Prior work in this setting has relied on relative noise models, where the noise vanishes as iterates approach equilibrium, an assumption that is often unrealistic in practice. We work instead under a substantially more general noise model in which the second moment of the noise is allowed to scale affinely with the squared norm of the iterates, an assumption natural in learning with unbounded action spaces. Under this model, we prove a last-iterate bound of order $O(\log(t)/t^{1/3})$, the first such bound for co-coercive games under non-vanishing noise. We additionally establish almost sure convergence of the iterates to the set of Nash equilibria and derive time-average convergence guarantees.
- Abstract(参考訳): 我々は,ノイズフィードバックの下で,コヒーシブゲームにおいて,バニラ確率勾配勾配の有限時間保証を確立する。
これは強い単調ゲームよりも一般的であり、複数のナッシュ平衡を可能にし、負の半有限相互作用行列を持つ二次ゲームや滑らかな凹凸ポテンシャルを持つポテンシャルゲームなどの例を含む幅広い種類のゲームである。
この設定における以前の研究は相対的なノイズモデルに依存しており、そこではノイズが平衡に近づくと消滅する。
より一般的なノイズモデルの下では、ノイズの第2モーメントは、非有界な作用空間で学習する際の仮定である反復の2乗ノルムと親和的にスケールすることができる。
このモデルの下では、次数$O(\log(t)/t^{1/3})$の最後の定値境界が証明される。
さらに、繰り返しのほぼ確実な収束をナッシュ均衡の集合に確立し、平均収束保証を導出する。
関連論文リスト
- Revisiting Convergence of AdaGrad with Relaxed Assumptions [4.189643331553922]
問題に対する AdaGrad の収束と運動量(特別の場合として AdaGrad をカバー)を再考する。
このモデルは、多くの実用的な応用において、サブソースを含む広い範囲のノイズを含む。
論文 参考訳(メタデータ) (2024-02-21T13:24:14Z) - Adaptively Perturbed Mirror Descent for Learning in Games [10.868347525353293]
本稿では,ペイオフ関数の勾配が単調なゲームにおいて,ミラーDescent(MD)アルゴリズムに対するペイオフ摂動手法を提案する。
その結果,アルゴリズムの収束が著しく加速していることが判明した。
論文 参考訳(メタデータ) (2023-05-26T04:02:54Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning in Multi-Player Stochastic Games [1.0878040851638]
有限ホライズン設定において、多くのプレイヤーとゲームにおける同時学習の問題を考える。
ゲームの典型的な対象解はナッシュ均衡であるが、これは多くのプレイヤーにとって難解である。
我々は異なるターゲットに目を向ける:全てのプレイヤーが使用するときの平衡を生成するアルゴリズム。
論文 参考訳(メタデータ) (2022-10-25T19:02:03Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。