論文の概要: Convergence and Price of Anarchy Guarantees of the Softmax Policy
Gradient in Markov Potential Games
- arxiv url: http://arxiv.org/abs/2206.07642v1
- Date: Wed, 15 Jun 2022 16:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 17:56:53.732092
- Title: Convergence and Price of Anarchy Guarantees of the Softmax Policy
Gradient in Markov Potential Games
- Title(参考訳): マルコフポテンシャルゲームにおけるソフトマックス政策勾配の収束と価格保証
- Authors: Dingyang Chen, Qi Zhang, Thinh T. Doan
- Abstract要約: マルコフポテンシャルゲーム(MPG)のサブクラスに対するポリシー勾配法の性能について検討する。
我々は、MPGを解くために、正規形式ゲームにおけるアナーキー(POA)と滑らかさの概念を拡張した。
私たちの知る限り、MPGを解くための最初のPOAバウンドです。
- 参考スコア(独自算出の注目度): 7.878934648314757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the performance of policy gradient methods for the subclass of
Markov games known as Markov potential games (MPGs), which extends the notion
of normal-form potential games to the stateful setting and includes the
important special case of the fully cooperative setting where the agents share
an identical reward function. Our focus in this paper is to study the
convergence of the policy gradient method for solving MPGs under softmax policy
parameterization, both tabular and parameterized with general function
approximators such as neural networks. We first show the asymptotic convergence
of this method to a Nash equilibrium of MPGs for tabular softmax policies.
Second, we derive the finite-time performance of the policy gradient in two
settings: 1) using the log-barrier regularization, and 2) using the natural
policy gradient under the best-response dynamics (NPG-BR). Finally, extending
the notion of price of anarchy (POA) and smoothness in normal-form games, we
introduce the POA for MPGs and provide a POA bound for NPG-BR. To our
knowledge, this is the first POA bound for solving MPGs. To support our
theoretical results, we empirically compare the convergence rates and POA of
policy gradient variants for both tabular and neural softmax policies.
- Abstract(参考訳): マルコフポテンシャルゲーム (mpgs) と呼ばれるマルコフゲームのサブクラスに対するポリシー勾配法の性能について検討し, 正規形ポテンシャルゲームの概念をステートフルな設定に拡張し, エージェントが同一の報酬関数を共有する完全協調設定の重要な特別な場合を含む。
本稿では,神経回路などの一般関数近似器を用いて表型およびパラメタライズされたソフトマックスポリシーパラメタライズの下でmpgを解くためのポリシー勾配法の収束について検討する。
まず,この手法の漸近収束性を,表層ソフトマックスポリシーに対するMPGのナッシュ平衡に示す。
次に、ポリシー勾配の有限時間性能を2つの設定で導出する。
1)log-barrier regularizationの使用,及び
2) 最適応答力学(NPG-BR)の下での自然政策勾配を用いた。
最後に、正規形式ゲームにおけるアナーキー(POA)と滑らかさの概念を拡張し、MPGのPOAを導入し、NPG-BRのPOAバウンドを提供する。
私たちの知る限り、MPGを解くための最初のPOAバウンドです。
理論的結果を支持するために,表層および神経性ソフトマックスポリシの収束率と方針勾配変動のPOAを実験的に比較した。
関連論文リスト
- Structure Matters: Dynamic Policy Gradient [1.747623282473278]
動的ポリシー勾配(DynPG)というフレームワークを導入する。
DynPGは動的プログラミングと(あらゆる)ポリシー勾配法を直接統合する。
その結果,バニラ政策勾配に対する最近の下限例と対比した。
論文 参考訳(メタデータ) (2024-11-07T17:51:55Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality [0.5261718469769449]
The novel Policy Gradient (PG) algorithm called $textitMatryoshka Policy Gradient$ (MPG) is introduced and study。
我々は,MPGのグローバル収束とともに,エントロピー正規化目標の最適方針を証明し,特徴付ける。
概念実証として,標準テストベンチマークでMPGを数値的に評価する。
論文 参考訳(メタデータ) (2023-03-22T17:56:18Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。