Fugu-MT 論文翻訳(概要): Policy Gradient Methods Find the Nash Equilibrium in N-player General-sum Linear-quadratic Games

論文の概要: Policy Gradient Methods Find the Nash Equilibrium in N-player General-sum Linear-quadratic Games

arxiv url: http://arxiv.org/abs/2107.13090v1
Date: Tue, 27 Jul 2021 22:08:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-29 14:05:19.732102
Title: Policy Gradient Methods Find the Nash Equilibrium in N-player General-sum Linear-quadratic Games
Title（参考訳）: N-player General-sum Linear-quadratic Gamesにおけるナッシュ平衡の政策勾配法
Authors: Ben Hambly, Renyuan Xu and Huining Yang
Abstract要約: 我々は自然政策法のナッシュ勾配への大域的収束を証明した。政策手法が決定論的条件に収束しない状況においても,雑音の付加は収束につながることを示す。
参考スコア（独自算出の注目度）: 3.0079490585515343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a general-sum N-player linear-quadratic game with stochastic dynamics over a finite horizon and prove the global convergence of the natural policy gradient method to the Nash equilibrium. In order to prove the convergence of the method, we require a certain amount of noise in the system. We give a condition, essentially a lower bound on the covariance of the noise in terms of the model parameters, in order to guarantee convergence. We illustrate our results with numerical experiments to show that even in situations where the policy gradient method may not converge in the deterministic setting, the addition of noise leads to convergence.
Abstract（参考訳）: 有限地平線上の確率力学を持つ一般のN-プレーヤ線形四元数ゲームを考え、自然方針勾配法のナッシュ平衡への大域収束を証明した。この手法の収束性を証明するためには,システムに一定量のノイズを必要とする。我々は、収束を保証するために、基本的にはモデルパラメータの観点からのノイズの共分散の低い条件を与える。本研究では, 方針勾配法が決定論的に収束しない場合であっても, 雑音の付加が収束に繋がることを示す数値実験を行った。

関連論文リスト

Revisiting Convergence: Shuffling Complexity Beyond Lipschitz Smoothness [50.78508362183774]
シャッフル型勾配法はその単純さと迅速な経験的性能のために実践的に好まれる。リプシッツ条件は一般的な機械学習スキームでは満たされないことが多い。
論文参考訳（メタデータ） (2025-07-11T15:36:48Z)
Gradients can train reward models: An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [9.531082746970286]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文参考訳（メタデータ） (2025-02-19T22:22:20Z)
Small steps no more: Global convergence of stochastic gradient bandits for arbitrary learning rates [61.091122503406304]
勾配帯域幅アルゴリズムは, 経験的定値学習率を用いて, ほぼ確実にグローバルな最適ポリシーに収束することを示す。この結果は、標準の滑らかさと騒音制御の仮定が崩壊するシナリオにおいても、勾配アルゴリズムが適切な探索と利用のバランスを保ち続けていることを証明している。
論文参考訳（メタデータ） (2025-02-11T00:12:04Z)
A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文参考訳（メタデータ） (2024-05-24T21:09:19Z)
First Order Methods with Markovian Noise: from Acceleration to Variational Inequalities [91.46841922915418]
本稿では,一階変分法の理論解析のための統一的アプローチを提案する。提案手法は非線形勾配問題とモンテカルロの強い問題の両方をカバーする。凸法最適化問題の場合、オラクルに強く一致するような境界を与える。
論文参考訳（メタデータ） (2023-05-25T11:11:31Z)
PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文参考訳（メタデータ） (2023-03-02T05:08:15Z)
Geometry and convergence of natural policy gradient methods [0.0]
規則的な政策パラメトリゼーションを伴う無限水平割引マルコフ決定過程におけるいくつかの自然政策勾配法(NPG)の収束について検討する。様々なNPGや報酬関数に対して、状態作用空間の軌跡がヘッセン幾何学に関する勾配流の解であることを示す。
論文参考訳（メタデータ） (2022-11-03T19:16:15Z)
An Exponentially Converging Particle Method for the Mixed Nash Equilibrium of Continuous Games [0.0]
我々は,2プレイヤーゼロサムゲームの混合ナッシュ平衡と,純戦略の連続的なセットと,ペイオフ関数への一次アクセスとの問題を考察する。この問題は例えば、分散ロバスト学習のようなゲームにインスパイアされた機械学習アプリケーションで発生する。本稿では,この問題に対する局所収束性を保証する粒子法の導入と解析を行う。
論文参考訳（メタデータ） (2022-11-02T17:03:40Z)
Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文参考訳（メタデータ） (2022-06-06T04:28:04Z)
Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文参考訳（メタデータ） (2022-05-27T08:00:13Z)
First-Order Algorithms for Nonlinear Generalized Nash Equilibrium Problems [88.58409977434269]
非線形一般化ナッシュ均衡問題(NGNEP)における平衡計算の問題を考える。我々の貢献は、2次ペナルティ法と拡張ラグランジアン法に基づく2つの単純な一階アルゴリズムフレームワークを提供することである。これらのアルゴリズムに対する漸近的理論的保証を提供する。
論文参考訳（メタデータ） (2022-04-07T00:11:05Z)
On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文参考訳（メタデータ） (2022-01-19T07:03:37Z)
On the Convergence of Stochastic Extragradient for Bilinear Games with Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文参考訳（メタデータ） (2021-06-30T17:51:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。