論文の概要: Independent Policy Gradient for Large-Scale Markov Potential Games:
Sharper Rates, Function Approximation, and Game-Agnostic Convergence
- arxiv url: http://arxiv.org/abs/2202.04129v1
- Date: Tue, 8 Feb 2022 20:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 05:14:42.249850
- Title: Independent Policy Gradient for Large-Scale Markov Potential Games:
Sharper Rates, Function Approximation, and Game-Agnostic Convergence
- Title(参考訳): 大規模マルコフポテンシャルゲームのための独立政策グラディエント:シャーパレート、関数近似、ゲーム非依存の収束
- Authors: Dongsheng Ding and Chen-Yu Wei and Kaiqing Zhang and Mihailo R.
Jovanovi\'c
- Abstract要約: 状態空間と/またはプレイヤーの数が非常に大きいMPGのナッシュ均衡を学習する。
我々は,すべてのプレイヤーがタンデムで実行する独立ポリシー勾配アルゴリズムを提案する。
我々は、ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束性を楽しむ独立ポリシー勾配アルゴリズムのクラスを、ゲームの種類によらないプレイヤーと同定する。
- 参考スコア(独自算出の注目度): 30.084357461497042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We examine global non-asymptotic convergence properties of policy gradient
methods for multi-agent reinforcement learning (RL) problems in Markov
potential games (MPG). To learn a Nash equilibrium of an MPG in which the size
of state space and/or the number of players can be very large, we propose new
independent policy gradient algorithms that are run by all players in tandem.
When there is no uncertainty in the gradient evaluation, we show that our
algorithm finds an $\epsilon$-Nash equilibrium with $O(1/\epsilon^2)$ iteration
complexity which does not explicitly depend on the state space size. When the
exact gradient is not available, we establish $O(1/\epsilon^5)$ sample
complexity bound in a potentially infinitely large state space for a
sample-based algorithm that utilizes function approximation. Moreover, we
identify a class of independent policy gradient algorithms that enjoys
convergence for both zero-sum Markov games and Markov cooperative games with
the players that are oblivious to the types of games being played. Finally, we
provide computational experiments to corroborate the merits and the
effectiveness of our theoretical developments.
- Abstract(参考訳): マルコフポテンシャルゲーム(MPG)における多エージェント強化学習(RL)問題に対するポリシー勾配法の非漸近収束特性について検討した。
状態空間の大きさやプレーヤ数が非常に大きいmpgのnash平衡を学習するために,すべてのプレーヤがタンデムで実行する,新たな独立ポリシー勾配アルゴリズムを提案する。
勾配評価に不確実性がない場合、我々のアルゴリズムは、状態空間サイズに明示的に依存しない、$O(1/\epsilon^2)$反復複雑性を持つ$\epsilon$-Nash平衡を求める。
正確な勾配が得られない場合、関数近似を利用するサンプルベースアルゴリズムに対して、潜在的に無限大な状態空間に束縛された$O(1/\epsilon^5)$サンプル複雑性を確立する。
さらに,ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束を楽しむ独立ポリシー勾配アルゴリズムのクラスを,ゲームの種類にこだわるプレイヤーと同定した。
最後に,理論的発展のメリットと有効性を裏付ける計算実験を行う。
関連論文リスト
- Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Scalable and Independent Learning of Nash Equilibrium Policies in
$n$-Player Stochastic Games with Unknown Independent Chains [1.0878040851638]
独立な連鎖と未知の遷移行列を持つゲームについて研究する。
このクラスのゲームでは、プレイヤーは他のプレイヤーの状態や行動に依存しない内部マルコフ連鎖を制御する。
我々は、$epsilon$-NEポリシーを学ぶために、完全に分散化されたミラー降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T03:04:09Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - Gradient play in stochastic games: stationary points, convergence, and
sample complexity [6.97785632069611]
ゲーム用グラデーションプレイアルゴリズム(SG)の性能について検討する。
この設定では、ナッシュ均衡(NE)と1次定常ポリシーが等価であることを示す。
マルコフポテンシャルゲームと呼ばれるSGのサブクラスに対して、サンプルベース強化学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-06-01T03:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。