論文の概要: Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning
with Parameter Convergence
- arxiv url: http://arxiv.org/abs/2210.12812v1
- Date: Sun, 23 Oct 2022 18:27:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:23:21.703504
- Title: Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning
with Parameter Convergence
- Title(参考訳): パラメータ収束型マルチエージェント学習のための対称(最適)自然政策勾配
- Authors: Sarath Pattathil, Kaiqing Zhang, Asuman Ozdaglar
- Abstract要約: マルチエージェント学習における自然政策勾配近似のグローバル収束について検討する。
本稿では,複数の標準的なマルチエージェント学習シナリオに対するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 18.412945308419033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent interactions are increasingly important in the context of
reinforcement learning, and the theoretical foundations of policy gradient
methods have attracted surging research interest. We investigate the global
convergence of natural policy gradient (NPG) algorithms in multi-agent
learning. We first show that vanilla NPG may not have parameter convergence,
i.e., the convergence of the vector that parameterizes the policy, even when
the costs are regularized (which enabled strong convergence guarantees in the
policy space in the literature). This non-convergence of parameters leads to
stability issues in learning, which becomes especially relevant in the function
approximation setting, where we can only operate on low-dimensional parameters,
instead of the high-dimensional policy. We then propose variants of the NPG
algorithm, for several standard multi-agent learning scenarios: two-player
zero-sum matrix and Markov games, and multi-player monotone games, with global
last-iterate parameter convergence guarantees. We also generalize the results
to certain function approximation settings. Note that in our algorithms, the
agents take symmetric roles. Our results might also be of independent interest
for solving nonconvex-nonconcave minimax optimization problems with certain
structures. Simulations are also provided to corroborate our theoretical
findings.
- Abstract(参考訳): 強化学習の文脈ではマルチエージェント相互作用がますます重要となり、政策勾配法の理論的な基礎が急速に研究の関心を集めている。
マルチエージェント学習における自然政策勾配(NPG)アルゴリズムのグローバル収束について検討する。
まず、バニラnpgがパラメータ収束、すなわち、コストが正規化されても、ポリシーをパラメータ化するベクトルの収束(文献のポリシー空間における強い収束保証を可能にする)を持たないことを示した。
このパラメータの非収束は、高次元のポリシーの代わりに低次元のパラメータのみを操作できる関数近似設定において特に意味を持つ学習における安定性の問題を引き起こす。
次に NPG アルゴリズムの変種を提案し,複数の標準的なマルチエージェント学習シナリオ: 2-player zero-sum matrix と Markov ゲーム,および大域的最終要素パラメータ収束を保証するマルチプレイヤー単調ゲームを提案する。
また,その結果を関数近似設定に一般化する。
私たちのアルゴリズムでは、エージェントが対称的な役割を担っていることに注意してください。
我々の結果は、ある構造を持つ非凸非凸極小最適化問題を解くためにも、独立した関心を持つかもしれない。
理論的な発見を裏付けるシミュレーションも提供される。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Computational Performance of Deep Reinforcement Learning to find Nash
Equilibria [0.0]
我々は深層強化学習アルゴリズムを用いて、企業が価格で競う環境でnash平衡を学習する。
モデルフリーであるにもかかわらず、アルゴリズムの様々なステップで大量のパラメータが利用される。
最大99%の収束率に達することができるパラメータの選択を見つけます。
論文 参考訳(メタデータ) (2021-04-26T22:14:17Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。