論文の概要: Global Convergence of Multi-Agent Policy Gradient in Markov Potential
Games
- arxiv url: http://arxiv.org/abs/2106.01969v1
- Date: Thu, 3 Jun 2021 16:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 17:29:18.081896
- Title: Global Convergence of Multi-Agent Policy Gradient in Markov Potential
Games
- Title(参考訳): マルコフポテンシャルゲームにおける多エージェント政策のグローバル収束
- Authors: Stefanos Leonardos, Will Overman, Ioannis Panageas, Georgios Piliouras
- Abstract要約: マルコフポテンシャルゲーム(MPG)の新たな定義を提案する。
MPGは、複雑なステートフルなマルチエージェント調整をキャプチャする以前の試みを一般化する。
我々は,MPGが決定論的ナッシュポリシーの存在など,標準的な望ましい特性を示すことを示す。
- 参考スコア(独自算出の注目度): 33.36015509903024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Potential games are arguably one of the most important and widely studied
classes of normal form games. They define the archetypal setting of multi-agent
coordination as all agent utilities are perfectly aligned with each other via a
common potential function. Can this intuitive framework be transplanted in the
setting of Markov Games? What are the similarities and differences between
multi-agent coordination with and without state dependence? We present a novel
definition of Markov Potential Games (MPG) that generalizes prior attempts at
capturing complex stateful multi-agent coordination. Counter-intuitively,
insights from normal-form potential games do not carry over as MPGs can consist
of settings where state-games can be zero-sum games. In the opposite direction,
Markov games where every state-game is a potential game are not necessarily
MPGs. Nevertheless, MPGs showcase standard desirable properties such as the
existence of deterministic Nash policies. In our main technical result, we
prove fast convergence of independent policy gradient to Nash policies by
adapting recent gradient dominance property arguments developed for single
agent MDPs to multi-agent learning settings.
- Abstract(参考訳): ポテンシャルゲームは、通常のフォームゲームにおいて最も重要で広く研究されているクラスの1つである。
彼らは、すべてのエージェントユーティリティが共通のポテンシャル関数を介して完全に一致しているため、マルチエージェントコーディネーションの原型設定を定義する。
この直感的なフレームワークはMarkov Gamesの設定で移植できますか?
状態に依存しないマルチエージェント協調の類似性と相違点は何か?
我々は,複雑なステートフル・マルチエージェント・コーディネーションを捉えようとする事前の試みを一般化した,マルコフポテンシャルゲーム(mpg)の新しい定義を提案する。
mpgは状態ゲームがゼロサムゲームであるような設定で構成できるため、直観上、通常の形式の潜在ゲームからの洞察は継承されない。
反対に、全ての状態ゲームが潜在的ゲームであるマルコフゲームは必ずしもMPGではない。
それにもかかわらず、MPGは決定論的ナッシュポリシーの存在のような標準的望ましい特性を示す。
本研究の主な技術的成果は,単一のエージェントmdpで開発された最近の勾配支配性属性引数をマルチエージェント学習設定に適応させることにより,独立政策勾配をnashポリシーに高速に収束させることである。
関連論文リスト
- Independent Policy Mirror Descent for Markov Potential Games: Scaling to Large Number of Players [17.55330497310932]
マルコフポテンシャルゲーム(Markov potential Games、MPG)はマルコフゲームの重要なサブクラスである。
MPGは特別な場合として、すべてのエージェントが同じ報酬関数を共有する、同一の関心の設定を含む。
マルチエージェントシステムでは,Nash平衡学習アルゴリズムの性能を多数のエージェントに拡張することが重要である。
論文 参考訳(メタデータ) (2024-08-15T11:02:05Z) - Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Independent Policy Gradient for Large-Scale Markov Potential Games:
Sharper Rates, Function Approximation, and Game-Agnostic Convergence [30.084357461497042]
状態空間と/またはプレイヤーの数が非常に大きいMPGのナッシュ均衡を学習する。
我々は,すべてのプレイヤーがタンデムで実行する独立ポリシー勾配アルゴリズムを提案する。
我々は、ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束性を楽しむ独立ポリシー勾配アルゴリズムのクラスを、ゲームの種類によらないプレイヤーと同定する。
論文 参考訳(メタデータ) (2022-02-08T20:09:47Z) - Independent Natural Policy Gradient Always Converges in Markov Potential
Games [18.43622733760659]
マルコフポテンシャルゲーム(MPG)と呼ばれる複合協調・競争ゲームについて研究する。
独立自然政策グラディエントは常に一定の学習率を用いてMPGに収束することを示す。
我々は, 自然政策グラディエントが, ゲームや渋滞ゲームのルーティングにおいて, ポリシーグラディエントより優れていることを示す実験により, 理論結果を補完する。
論文 参考訳(メタデータ) (2021-10-20T15:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。