論文の概要: On the Convergence of No-Regret Learning Dynamics in Time-Varying Games
- arxiv url: http://arxiv.org/abs/2301.11241v2
- Date: Thu, 23 Mar 2023 00:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:34:01.123238
- Title: On the Convergence of No-Regret Learning Dynamics in Time-Varying Games
- Title(参考訳): 時変ゲームにおける非回帰学習ダイナミクスの収束について
- Authors: Ioannis Anagnostides, Ioannis Panageas, Gabriele Farina, Tuomas
Sandholm
- Abstract要約: 時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
- 参考スコア(独自算出の注目度): 96.35268188520513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the literature on learning in games has focused on the restrictive
setting where the underlying repeated game does not change over time. Much less
is known about the convergence of no-regret learning algorithms in dynamic
multiagent settings. In this paper, we characterize the convergence of
optimistic gradient descent (OGD) in time-varying games. Our framework yields
sharp convergence bounds for the equilibrium gap of OGD in zero-sum games
parameterized on natural variation measures of the sequence of games, subsuming
known results for static games. Furthermore, we establish improved second-order
variation bounds under strong convexity-concavity, as long as each game is
repeated multiple times. Our results also apply to time-varying general-sum
multi-player games via a bilinear formulation of correlated equilibria, which
has novel implications for meta-learning and for obtaining refined
variation-dependent regret bounds, addressing questions left open in prior
papers. Finally, we leverage our framework to also provide new insights on
dynamic regret guarantees in static games.
- Abstract(参考訳): ゲームにおける学習に関する文献の多くは、根底にある繰り返しゲームが時間とともに変化しない制限的な設定に焦点を当てている。
動的マルチエージェント設定における非回帰学習アルゴリズムの収束についてはあまり知られていない。
本稿では,時間変動ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
本フレームワークは,ゲーム列の自然な変動測度に基づいてパラメータ化されたゼロサムゲームにおけるogdの平衡ギャップに対する鋭い収束限界を与え,静的ゲームにおける既知の結果を推定する。
さらに,各ゲームが複数回繰り返される限り,強い凸凸性の下で改良された2次変動境界を確立する。
また,関係平衡の双線形定式化による時間変化型汎用マルチプレイヤーゲームにも適用し,メタラーニングや改良された変分依存後悔境界の獲得に新たな意味を持つ。
最後に,我々のフレームワークを活用して,静的ゲームにおける動的後悔の保証に関する新たな洞察を提供する。
関連論文リスト
- Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Asynchronous Gradient Play in Zero-Sum Multi-agent Games [25.690033495071923]
ゼロサムポリマトリクスゲームにおける遅延フィードバック下での非同期勾配プレイについて検討した。
我々の知る限りでは、この研究はゼロサムポリマトリクスゲームにおける非同期勾配プレイを理解することを目的とした最初のものである。
論文 参考訳(メタデータ) (2022-11-16T15:37:23Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Adaptive Learning in Continuous Games: Optimal Regret Bounds and
Convergence to Nash Equilibrium [33.9962699667578]
No-regretアルゴリズムはゲーム理論の保証の点で等しく作成されません。
楽観的なミラー降下に基づく非相対的ポリシーを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:52:29Z) - Simple Uncoupled No-Regret Learning Dynamics for Extensive-Form
Correlated Equilibrium [65.64512759706271]
正常形式ゲームにおける相関平衡と収束する単純非結合非残余力学の存在について研究する。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
我々は,反復数において後悔をトリガーする確率が高い確率で保証する効率的なno-regretアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-04T02:26:26Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium [76.78447814623665]
正規形式ゲームにおいて、相関平衡に収束する最初の非共役な非共役ダイナミクスを与える。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
提案アルゴリズムは,各決定点における局所的なサブプロブレムにトリガを分解し,局所解からプレイヤーのグローバルな戦略を構築する。
論文 参考訳(メタデータ) (2020-04-01T17:39:00Z) - Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games [116.0771177871705]
我々は,$lambda$-cocoerciveゲーム上での連立OGD学習における有限時間最終点収束率を特徴付ける。
新たなダブルストッピング時間法により, この適応アルゴリズムは, 非適応的手法と同じ有限時間終点収束率が得られることを示す。
論文 参考訳(メタデータ) (2020-02-23T01:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。