論文の概要: Independent RL for Cooperative-Competitive Agents: A Mean-Field Perspective
- arxiv url: http://arxiv.org/abs/2403.11345v1
- Date: Sun, 17 Mar 2024 21:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:17:15.366343
- Title: Independent RL for Cooperative-Competitive Agents: A Mean-Field Perspective
- Title(参考訳): 協同競争型エージェントのための独立RL : 平均的視点
- Authors: Muhammad Aneeq uz Zaman, Alec Koppel, Mathieu Laurière, Tamer Başar,
- Abstract要約: この論文では、各チーム間には協力関係があるが、異なるチーム間での一般的な競争があるように、チームにグループ化されるエージェント間の強化学習(RL)に対処する。
- 参考スコア(独自算出の注目度): 11.603515105957461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address in this paper Reinforcement Learning (RL) among agents that are grouped into teams such that there is cooperation within each team but general-sum (non-zero sum) competition across different teams. To develop an RL method that provably achieves a Nash equilibrium, we focus on a linear-quadratic structure. Moreover, to tackle the non-stationarity induced by multi-agent interactions in the finite population setting, we consider the case where the number of agents within each team is infinite, i.e., the mean-field setting. This results in a General-Sum LQ Mean-Field Type Game (GS-MFTGs). We characterize the Nash equilibrium (NE) of the GS-MFTG, under a standard invertibility condition. This MFTG NE is then shown to be $\mathcal{O}(1/M)$-NE for the finite population game where $M$ is a lower bound on the number of agents in each team. These structural results motivate an algorithm called Multi-player Receding-horizon Natural Policy Gradient (MRPG), where each team minimizes its cumulative cost independently in a receding-horizon manner. Despite the non-convexity of the problem, we establish that the resulting algorithm converges to a global NE through a novel problem decomposition into sub-problems using backward recursive discrete-time Hamilton-Jacobi-Isaacs (HJI) equations, in which independent natural policy gradient is shown to exhibit linear convergence under time-independent diagonal dominance. Experiments illuminate the merits of this approach in practice.
- Abstract(参考訳): この論文では、各チーム内に協力関係があるが、異なるチーム間での一般的な(ゼロではない)競争があるように、チームにグループ化されるエージェント間の強化学習(RL)に対処する。
ナッシュ平衡を確実に達成するRL法を開発するために,線形2次構造に着目する。
さらに, 有限集団設定におけるマルチエージェント相互作用によって引き起こされる非定常性に対処するために, 各チーム内のエージェント数が無限である場合,すなわち平均場設定を考える。
この結果、GS-MFTG(General-Sum LQ Mean-Field Type Game)となる。
標準可逆条件下でGS-MFTGのナッシュ平衡(NE)を特徴付ける。
この MFTG NE は、有限集団ゲームに対して $\mathcal{O}(1/M)$-NE であることが示される。
これらの構造的結果はMRPG(Multi-player Receding-Horizon Natural Policy Gradient)と呼ばれるアルゴリズムを動機付けている。
非凸性にも拘わらず、この結果のアルゴリズムは後方再帰的離散時間ハミルトン・ヤコビ・イザック方程式(HJI)を用いて、新たな問題分解によって大域NEに収束し、時間非依存の対角線支配下での線形収束を示すことが示される。
実験は、実際にこのアプローチのメリットを照らします。
関連論文リスト
- Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - MF-OML: Online Mean-Field Reinforcement Learning with Occupation Measures for Large Population Games [5.778024594615575]
本稿では,シーケンシャルゲームのナッシュ平衡計算のためのオンライン平均場強化学習アルゴリズムを提案する。
MFOMLは、ナッシュ平衡を実証的に解くための、最初の完全近似マルチエージェント強化学習アルゴリズムである。
副生成物として、モノトーン平均場ゲームの近似計算のための最初のトラクタブル大域収束計算も得られる。
論文 参考訳(メタデータ) (2024-05-01T02:19:31Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z) - Minimax-Optimal Multi-Agent RL in Zero-Sum Markov Games With a
Generative Model [50.38446482252857]
2人プレイのゼロサムマルコフゲームは多エージェント強化学習においておそらく最も基本的な設定である。
我々は,$$ widetildeObiggを用いて,$varepsilon$-approximate Markov NEポリシーを学習する学習アルゴリズムを開発した。
我々は、分散型量の役割を明確にするFTRLに対する洗練された後悔境界を導出する。
論文 参考訳(メタデータ) (2022-08-22T17:24:55Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Independent Policy Gradient for Large-Scale Markov Potential Games:
Sharper Rates, Function Approximation, and Game-Agnostic Convergence [30.084357461497042]
状態空間と/またはプレイヤーの数が非常に大きいMPGのナッシュ均衡を学習する。
我々は,すべてのプレイヤーがタンデムで実行する独立ポリシー勾配アルゴリズムを提案する。
我々は、ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束性を楽しむ独立ポリシー勾配アルゴリズムのクラスを、ゲームの種類によらないプレイヤーと同定する。
論文 参考訳(メタデータ) (2022-02-08T20:09:47Z) - Near-Optimal No-Regret Learning for Correlated Equilibria in
Multi-Player General-Sum Games [104.74734408204749]
マルチプレイヤーの汎用正規形式ゲームにおいて,OMWU(Optimistic Multiplicative Weights Update)を用いているエージェントが全員,O(textrmpolylog(T))$(T$)$(T$)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$(OMWU)$)であることを示す。
外部の後悔から内部の後悔へと結果を拡張し、後悔を交換することで、近似した平衡に収束する非結合学習ダイナミクスを確立する。
論文 参考訳(メタデータ) (2021-11-11T01:19:53Z) - Reinforcement Learning in Non-Stationary Discrete-Time Linear-Quadratic
Mean-Field Games [14.209473797379667]
離散時間線形四角形平均場ゲーム(LQ-MFG)の文脈における大集団多エージェント強化学習(RL)について検討する。
我々の設定は、無限の地平線上の非定常 MFG を考えるという点で、MFG に対するRL に関するほとんどの既存の研究とは異なる。
本稿では,LQ-MFGの平均場平衡(MFE)を反復的に計算するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-09T15:17:52Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。