論文の概要: Major-Minor Mean Field Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.10665v2
- Date: Tue, 7 May 2024 20:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 19:40:17.665096
- Title: Major-Minor Mean Field Multi-Agent Reinforcement Learning
- Title(参考訳): 極小平均場マルチエージェント強化学習
- Authors: Kai Cui, Christian Fabian, Anam Tahir, Heinz Koeppl,
- Abstract要約: マルチエージェント強化学習(MARL)は多くのエージェントに拡張することが困難である。
平均場制御(MFC)を用いた最近のMARLは、他の難易度の高いMARLに対するトラクタブルで厳密なアプローチを提供する。
我々は、MFCを多種多様な複雑なエージェントを同時にモデル化するように一般化する。
- 参考スコア(独自算出の注目度): 29.296206774925388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) remains difficult to scale to many agents. Recent MARL using Mean Field Control (MFC) provides a tractable and rigorous approach to otherwise difficult cooperative MARL. However, the strict MFC assumption of many independent, weakly-interacting agents is too inflexible in practice. We generalize MFC to instead simultaneously model many similar and few complex agents -- as Major-Minor Mean Field Control (M3FC). Theoretically, we give approximation results for finite agent control, and verify the sufficiency of stationary policies for optimality together with a dynamic programming principle. Algorithmically, we propose Major-Minor Mean Field MARL (M3FMARL) for finite agent systems instead of the limiting system. The algorithm is shown to approximate the policy gradient of the underlying M3FC MDP. Finally, we demonstrate its capabilities experimentally in various scenarios. We observe a strong performance in comparison to state-of-the-art policy gradient MARL methods.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は多くのエージェントに拡張することが困難である。
平均場制御(MFC)を用いた最近のMARLは、他の難易度の高いMARLに対するトラクタブルで厳密なアプローチを提供する。
しかし、多くの独立で弱い相互作用を持つエージェントの厳密なMFC仮定は、実際には柔軟すぎる。
我々は、MFCを、M3FC(Major-Minor Mean Field Control)として、多くの類似した、かつ少数の複雑なエージェントを同時にモデル化するように一般化する。
理論的には、有限エージェント制御に対する近似結果を与え、動的プログラミング原理とともに最適性のための定常ポリシーの十分性を検証する。
本稿では,有限エージェントシステムに対して,制限システムの代わりにM3FMARL(Major-Minor Mean Field MARL)を提案する。
このアルゴリズムは、基礎となるM3FC MDPのポリシー勾配を近似する。
最後に、様々なシナリオで実験的にその能力を実証する。
我々は、最先端のポリシー勾配MARL法と比較して、強い性能を観察する。
関連論文リスト
- Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Learning Decentralized Partially Observable Mean Field Control for
Artificial Collective Behavior [28.313779052437134]
分散部分観測可能なMFC(Dec-POMFC)の新しいモデルを提案する。
動的プログラミング原理を含む厳密な理論結果を提供する。
全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。
論文 参考訳(メタデータ) (2023-07-12T14:02:03Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Discrete-Time Mean Field Control with Environment States [25.44061731738579]
平均フィールド制御と平均フィールドゲームは、多くのエージェントとの大規模なマルチエージェント問題のためのトラクタブルソリューションとして確立されています。
有限エージェントケースでのエージェント数の増加に伴い、近似最適性を厳格に確立します。
動的プログラミングの原則が成り立ち、その結果、最適な定常的なポリシーが存在することが分かりました。
論文 参考訳(メタデータ) (2021-04-30T10:58:01Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration
for Mean-Field Reinforcement Learning [135.64775986546505]
我々はマルチエージェント強化学習(MARL)におけるエージェントの対称性を利用する
我々は,平均場MARLを解くMF-FQIアルゴリズムを提案し,MF-FQIアルゴリズムの非漸近解析を確立する。
MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
論文 参考訳(メタデータ) (2020-06-21T21:45:50Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。