論文の概要: Policy Gradient Methods Find the Nash Equilibrium in N-player
General-sum Linear-quadratic Games
- arxiv url: http://arxiv.org/abs/2107.13090v1
- Date: Tue, 27 Jul 2021 22:08:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 14:05:19.732102
- Title: Policy Gradient Methods Find the Nash Equilibrium in N-player
General-sum Linear-quadratic Games
- Title(参考訳): N-player General-sum Linear-quadratic Gamesにおけるナッシュ平衡の政策勾配法
- Authors: Ben Hambly, Renyuan Xu and Huining Yang
- Abstract要約: 我々は自然政策法のナッシュ勾配への大域的収束を証明した。
政策手法が決定論的条件に収束しない状況においても,雑音の付加は収束につながることを示す。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a general-sum N-player linear-quadratic game with stochastic
dynamics over a finite horizon and prove the global convergence of the natural
policy gradient method to the Nash equilibrium. In order to prove the
convergence of the method, we require a certain amount of noise in the system.
We give a condition, essentially a lower bound on the covariance of the noise
in terms of the model parameters, in order to guarantee convergence. We
illustrate our results with numerical experiments to show that even in
situations where the policy gradient method may not converge in the
deterministic setting, the addition of noise leads to convergence.
- Abstract(参考訳): 有限地平線上の確率力学を持つ一般のN-プレーヤ線形四元数ゲームを考え、自然方針勾配法のナッシュ平衡への大域収束を証明した。
この手法の収束性を証明するためには,システムに一定量のノイズを必要とする。
我々は、収束を保証するために、基本的にはモデルパラメータの観点からのノイズの共分散の低い条件を与える。
本研究では, 方針勾配法が決定論的に収束しない場合であっても, 雑音の付加が収束に繋がることを示す数値実験を行った。
関連論文リスト
- Gradients can train reward models: An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [9.531082746970286]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。
目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。
線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文 参考訳(メタデータ) (2025-02-19T22:22:20Z) - Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning rates [61.091122503406304]
勾配帯域幅アルゴリズムは, 経験的定値学習率を用いて, ほぼ確実にグローバルな最適ポリシーに収束することを示す。
この結果は、標準の滑らかさと騒音制御の仮定が崩壊するシナリオにおいても、勾配アルゴリズムが適切な探索と利用のバランスを保ち続けていることを証明している。
論文 参考訳(メタデータ) (2025-02-11T00:12:04Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。
提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。
凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文 参考訳(メタデータ) (2023-05-25T11:11:31Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。
様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文 参考訳(メタデータ) (2022-11-03T19:16:15Z) - An Exponentially Converging Particle Method for the Mixed Nash
Equilibrium of Continuous Games [0.0]
我々は,2プレイヤーゼロサムゲームの混合ナッシュ平衡と,純戦略の連続的なセットと,ペイオフ関数への一次アクセスとの問題を考察する。
この問題は例えば、分散ロバスト学習のようなゲームにインスパイアされた機械学習アプリケーションで発生する。
本稿では,この問題に対する局所収束性を保証する粒子法の導入と解析を行う。
論文 参考訳(メタデータ) (2022-11-02T17:03:40Z) - First-Order Algorithms for Nonlinear Generalized Nash Equilibrium
Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。
我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。
これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文 参考訳(メタデータ) (2022-04-07T00:11:05Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。