論文の概要: A unified stochastic approximation framework for learning in games
- arxiv url: http://arxiv.org/abs/2206.03922v2
- Date: Mon, 3 Jul 2023 14:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 16:08:32.520024
- Title: A unified stochastic approximation framework for learning in games
- Title(参考訳): ゲームにおける学習のための統一確率近似フレームワーク
- Authors: Panayotis Mertikopoulos and Ya-Ping Hsieh and Volkan Cevher
- Abstract要約: ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
- 参考スコア(独自算出の注目度): 82.74514886461257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a flexible stochastic approximation framework for analyzing the
long-run behavior of learning in games (both continuous and finite). The
proposed analysis template incorporates a wide array of popular learning
algorithms, including gradient-based methods, the exponential/multiplicative
weights algorithm for learning in finite games, optimistic and bandit variants
of the above, etc. In addition to providing an integrated view of these
algorithms, our framework further allows us to obtain several new convergence
results, both asymptotic and in finite time, in both continuous and finite
games. Specifically, we provide a range of criteria for identifying classes of
Nash equilibria and sets of action profiles that are attracting with high
probability, and we also introduce the notion of coherence, a game-theoretic
property that includes strict and sharp equilibria, and which leads to
convergence in finite time. Importantly, our analysis applies to both
oracle-based and bandit, payoff-based methods - that is, when players only
observe their realized payoffs.
- Abstract(参考訳): ゲームにおける学習の長期的挙動(連続的かつ有限的)を解析するためのフレキシブル確率近似フレームワークを開発する。
提案する解析テンプレートには,グラデーションに基づく手法,有限ゲーム学習のための指数的/乗法重み付けアルゴリズム,楽観的およびバンドイット型など,多岐にわたる一般的な学習アルゴリズムが組み込まれている。
これらのアルゴリズムの統合ビューを提供するのに加えて、このフレームワークにより、連続ゲームと有限ゲームの両方において、漸近的および有限時間の両方で、いくつかの新しい収束結果を得ることができる。
具体的には,nash平衡のクラスと高確率で引き付ける行動プロファイルのセットを識別するための基準として,厳密で鋭い平衡を含むゲーム理論的な性質であるコヒーレンスの概念を導入し,有限時間で収束する。
重要なことは、我々の分析はオラクルベースとバンディットベースのペイオフベースの方法の両方に適用されます。
関連論文リスト
- Graphon Mean Field Games with a Representative Player: Analysis and Learning Algorithm [14.647775453098513]
軽度の仮定でグラノン平衡の存在と特異性を証明し、この平衡を用いてネットワーク上の有限プレイヤーゲームに対する近似解を構築することができることを示す。
オンラインのオラクルフリー学習アルゴリズムは平衡を数値的に解くために開発され、その収束のためにサンプル複雑性解析が提供される。
論文 参考訳(メタデータ) (2024-05-08T04:44:16Z) - Independent Learning in Constrained Markov Potential Games [19.083595175045073]
制約付きマルコフゲームは、マルチエージェント強化学習問題をモデル化するための正式なフレームワークを提供する。
近似的制約付きナッシュ平衡を学習するための独立ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-27T20:57:35Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Fictitious Play for Mean Field Games: Continuous Time Analysis and
Applications [36.76207130435722]
まず、連続時間有限プレイ過程の理論的収束解析を行い、誘導されたエクスプロイラビリティが$O(frac1t)$で減少することを示す。
ここでは,一般騒音の存在下での平均場競技における学習力学の収束を初めて行う。
論文 参考訳(メタデータ) (2020-07-05T23:31:47Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z) - Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games [116.0771177871705]
我々は,$lambda$-cocoerciveゲーム上での連立OGD学習における有限時間最終点収束率を特徴付ける。
新たなダブルストッピング時間法により, この適応アルゴリズムは, 非適応的手法と同じ有限時間終点収束率が得られることを示す。
論文 参考訳(メタデータ) (2020-02-23T01:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。