論文の概要: Learning in games from a stochastic approximation viewpoint
- arxiv url: http://arxiv.org/abs/2206.03922v1
- Date: Wed, 8 Jun 2022 14:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 15:02:54.184665
- Title: Learning in games from a stochastic approximation viewpoint
- Title(参考訳): 確率近似から見たゲームにおける学習
- Authors: Panayotis Mertikopoulos and Ya-Ping Hsieh and Volkan Cevher
- Abstract要約: ゲームにおけるオンライン学習の長期的行動を分析するための統合近似フレームワークを開発した。
我々のフレームワークは,多種多様なゲーム理論学習アルゴリズムを含む,"プリマルデュアル"ミラーリングされたRobins-Monro(MRM)テンプレートに基づいている。
- 参考スコア(独自算出の注目度): 82.74514886461257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a unified stochastic approximation framework for analyzing the
long-run behavior of multi-agent online learning in games. Our framework is
based on a "primal-dual", mirrored Robbins-Monro (MRM) template which
encompasses a wide array of popular game-theoretic learning algorithms
(gradient methods, their optimistic variants, the EXP3 algorithm for learning
with payoff-based feedback in finite games, etc.). In addition to providing an
integrated view of these algorithms, the proposed MRM blueprint allows us to
obtain a broad range of new convergence results, both asymptotic and in finite
time, in both continuous and finite games.
- Abstract(参考訳): ゲームにおけるマルチエージェントオンライン学習の長期動作を解析するための一元的確率近似フレームワークを開発した。
このフレームワークは,多種多様なゲーム理論学習アルゴリズム(段階的手法,楽観的変種,有限ゲームにおけるペイオフベースのフィードバックによる学習のためのexp3アルゴリズムなど)を包含する,mrm(mirrored robbins-monro)テンプレートに基づいている。
これらのアルゴリズムの統合ビューを提供するのに加えて、提案したMRMブループリントは、連続ゲームと有限ゲームの両方において、漸近的および有限時間の両方で、幅広い新しい収束結果を得ることができる。
関連論文リスト
- Graphon Mean Field Games with a Representative Player: Analysis and Learning Algorithm [14.647775453098513]
軽度の仮定でグラノン平衡の存在と特異性を証明し、この平衡を用いてネットワーク上の有限プレイヤーゲームに対する近似解を構築することができることを示す。
オンラインのオラクルフリー学習アルゴリズムは平衡を数値的に解くために開発され、その収束のためにサンプル複雑性解析が提供される。
論文 参考訳(メタデータ) (2024-05-08T04:44:16Z) - Independent Learning in Constrained Markov Potential Games [19.083595175045073]
制約付きマルコフゲームは、マルチエージェント強化学習問題をモデル化するための正式なフレームワークを提供する。
近似的制約付きナッシュ平衡を学習するための独立ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-27T20:57:35Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Fictitious Play for Mean Field Games: Continuous Time Analysis and
Applications [36.76207130435722]
まず、連続時間有限プレイ過程の理論的収束解析を行い、誘導されたエクスプロイラビリティが$O(frac1t)$で減少することを示す。
ここでは,一般騒音の存在下での平均場競技における学習力学の収束を初めて行う。
論文 参考訳(メタデータ) (2020-07-05T23:31:47Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z) - Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games [116.0771177871705]
我々は,$lambda$-cocoerciveゲーム上での連立OGD学習における有限時間最終点収束率を特徴付ける。
新たなダブルストッピング時間法により, この適応アルゴリズムは, 非適応的手法と同じ有限時間終点収束率が得られることを示す。
論文 参考訳(メタデータ) (2020-02-23T01:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。