論文の概要: Independent Natural Policy Gradient Always Converges in Markov Potential
Games
- arxiv url: http://arxiv.org/abs/2110.10614v1
- Date: Wed, 20 Oct 2021 15:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 18:17:59.235259
- Title: Independent Natural Policy Gradient Always Converges in Markov Potential
Games
- Title(参考訳): 独立した自然政策勾配は、常にマルコフポテンシャルゲームに収束する
- Authors: Roy Fox, Stephen McAleer, Will Overman, Ioannis Panageas
- Abstract要約: マルコフポテンシャルゲーム(MPG)と呼ばれる複合協調・競争ゲームについて研究する。
独立自然政策グラディエントは常に一定の学習率を用いてMPGに収束することを示す。
我々は, 自然政策グラディエントが, ゲームや渋滞ゲームのルーティングにおいて, ポリシーグラディエントより優れていることを示す実験により, 理論結果を補完する。
- 参考スコア(独自算出の注目度): 18.43622733760659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning has been successfully applied to
fully-cooperative and fully-competitive environments, but little is currently
known about mixed cooperative/competitive environments. In this paper, we focus
on a particular class of multi-agent mixed cooperative/competitive stochastic
games called Markov Potential Games (MPGs), which include cooperative games as
a special case. Recent results have shown that independent policy gradient
converges in MPGs but it was not known whether Independent Natural Policy
Gradient converges in MPGs as well. We prove that Independent Natural Policy
Gradient always converges in the last iterate using constant learning rates.
The proof deviates from the existing approaches and the main challenge lies in
the fact that Markov Potential Games do not have unique optimal values (as
single-agent settings exhibit) so different initializations can lead to
different limit point values. We complement our theoretical results with
experiments that indicate that Natural Policy Gradient outperforms Policy
Gradient in routing games and congestion games.
- Abstract(参考訳): マルチエージェント強化学習は, 完全協調・完全競争環境に適用されているが, 複合協調・競争環境についてはほとんど知られていない。
本稿では,協調ゲームを含むマルチエージェント混合協調・競争的確率ゲームであるマルコフポテンシャルゲーム(mpgs)について考察する。
近年、独立政策勾配がMPGに収束することが示されているが、独立自然政策勾配がMPGにも収束するかどうかは分かっていない。
独立自然政策グラディエントは常に一定の学習率を用いて最終回に収束することを示す。
証明は既存のアプローチから逸脱しており、マルコフポテンシャルゲームは(単一エージェントの設定が示すように)一意の最適値を持っていないため、異なる初期化は異なる極限点値をもたらす。
我々は, ルーティングゲームや混雑ゲームにおいて, 自然政策勾配が政策勾配を上回っていることを示す実験によって, 理論結果を補完する。
関連論文リスト
- Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Independent Policy Gradient for Large-Scale Markov Potential Games:
Sharper Rates, Function Approximation, and Game-Agnostic Convergence [30.084357461497042]
状態空間と/またはプレイヤーの数が非常に大きいMPGのナッシュ均衡を学習する。
我々は,すべてのプレイヤーがタンデムで実行する独立ポリシー勾配アルゴリズムを提案する。
我々は、ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束性を楽しむ独立ポリシー勾配アルゴリズムのクラスを、ゲームの種類によらないプレイヤーと同定する。
論文 参考訳(メタデータ) (2022-02-08T20:09:47Z) - Global Convergence of Multi-Agent Policy Gradient in Markov Potential
Games [33.36015509903024]
マルコフポテンシャルゲーム(MPG)の新たな定義を提案する。
MPGは、複雑なステートフルなマルチエージェント調整をキャプチャする以前の試みを一般化する。
我々は,MPGが決定論的ナッシュポリシーの存在など,標準的な望ましい特性を示すことを示す。
論文 参考訳(メタデータ) (2021-06-03T16:17:46Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。