論文の概要: Policy Gradient Methods Find the Nash Equilibrium in N-player
General-sum Linear-quadratic Games
- arxiv url: http://arxiv.org/abs/2107.13090v1
- Date: Tue, 27 Jul 2021 22:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 14:05:19.732102
- Title: Policy Gradient Methods Find the Nash Equilibrium in N-player
General-sum Linear-quadratic Games
- Title(参考訳): N-player General-sum Linear-quadratic Gamesにおけるナッシュ平衡の政策勾配法
- Authors: Ben Hambly, Renyuan Xu and Huining Yang
- Abstract要約: 我々は自然政策法のナッシュ勾配への大域的収束を証明した。
政策手法が決定論的条件に収束しない状況においても,雑音の付加は収束につながることを示す。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a general-sum N-player linear-quadratic game with stochastic
dynamics over a finite horizon and prove the global convergence of the natural
policy gradient method to the Nash equilibrium. In order to prove the
convergence of the method, we require a certain amount of noise in the system.
We give a condition, essentially a lower bound on the covariance of the noise
in terms of the model parameters, in order to guarantee convergence. We
illustrate our results with numerical experiments to show that even in
situations where the policy gradient method may not converge in the
deterministic setting, the addition of noise leads to convergence.
- Abstract(参考訳): 有限地平線上の確率力学を持つ一般のN-プレーヤ線形四元数ゲームを考え、自然方針勾配法のナッシュ平衡への大域収束を証明した。
この手法の収束性を証明するためには,システムに一定量のノイズを必要とする。
我々は、収束を保証するために、基本的にはモデルパラメータの観点からのノイズの共分散の低い条件を与える。
本研究では, 方針勾配法が決定論的に収束しない場合であっても, 雑音の付加が収束に繋がることを示す数値実験を行った。
関連論文リスト
- A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。
提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。
凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文 参考訳(メタデータ) (2023-05-25T11:11:31Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。
様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:16:15Z) - An Exponentially Converging Particle Method for the Mixed Nash
Equilibrium of Continuous Games [0.0]
我々は,2プレイヤーゼロサムゲームの混合ナッシュ平衡と,純戦略の連続的なセットと,ペイオフ関数への一次アクセスとの問題を考察する。
この問題は例えば、分散ロバスト学習のようなゲームにインスパイアされた機械学習アプリケーションで発生する。
本稿では,この問題に対する局所収束性を保証する粒子法の導入と解析を行う。
論文 参考訳(メタデータ) (2022-11-02T17:03:40Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。