論文の概要: Multi-Agent Reinforcement Learning via Mean Field Control: Common Noise,
Major Agents and Approximation Properties
- arxiv url: http://arxiv.org/abs/2303.10665v1
- Date: Sun, 19 Mar 2023 14:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 18:05:03.636923
- Title: Multi-Agent Reinforcement Learning via Mean Field Control: Common Noise,
Major Agents and Approximation Properties
- Title(参考訳): 平均場制御によるマルチエージェント強化学習:共通雑音,主要エージェント,近似特性
- Authors: Kai Cui, Christian Fabian, Heinz Koeppl
- Abstract要約: 我々はマルコフ決定過程と平均場制御(M3FC)の新しい離散時間一般化を提案する。
M3FCは、主要なエージェント状態を介して、マイナーエージェント間の強い相関関係を持つマイナーエージェント分布を許容する。
本稿では,新しいマルチエージェント強化学習アルゴリズムとして,M3FPPO(Major-minor mean field Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 26.405495663998828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, mean field control (MFC) has provided a tractable and theoretically
founded approach to otherwise difficult cooperative multi-agent control.
However, the strict assumption of many independent, homogeneous agents may be
too stringent in practice. In this work, we propose a novel discrete-time
generalization of Markov decision processes and MFC to both many minor agents
and potentially complex major agents -- major-minor mean field control (M3FC).
In contrast to deterministic MFC, M3FC allows for stochastic minor agent
distributions with strong correlation between minor agents through the major
agent state, which can model arbitrary problem details not bound to any agent.
Theoretically, we give rigorous approximation properties with novel proofs for
both M3FC and existing MFC models in the finite multi-agent problem, together
with a dynamic programming principle for solving such problems. In the
infinite-horizon discounted case, existence of an optimal stationary policy
follows. Algorithmically, we propose the major-minor mean field proximal policy
optimization algorithm (M3FPPO) as a novel multi-agent reinforcement learning
algorithm and demonstrate its success in illustrative M3FC-type problems.
- Abstract(参考訳): 近年,平均場制御 (mfc) は, 難解な協調型マルチエージェント制御に対して, 誘導可能かつ理論的に確立されたアプローチを提供している。
しかし、多くの独立で均質なエージェントの厳密な仮定は実際には厳密すぎるかもしれない。
本研究では、マルコフ決定過程とMFCの離散時間一般化を、多くのマイナーエージェントと潜在的に複雑なメジャーエージェント(M3FC)の両方に提案する。
決定論的MFCとは対照的に、M3FCはマイナーエージェント間の強い相関関係を持つ確率的マイナーエージェント分布を主要なエージェント状態を通じて許容する。
理論的には、有限マルチエージェント問題において、M3FCモデルと既存のMFCモデルの両方に対する新しい証明を伴う厳密な近似特性と、そのような問題を解決するための動的プログラミング原理を与える。
無限ホリゾンディスカウントの場合、最適な定常ポリシーの存在は次のようになる。
アルゴリズムとして,新しいマルチエージェント強化学習アルゴリズムとして,m3fppoを提案するとともに,m3fc型問題におけるその成功を実証する。
関連論文リスト
- Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Learning Decentralized Partially Observable Mean Field Control for
Artificial Collective Behavior [28.313779052437134]
分散部分観測可能なMFC(Dec-POMFC)の新しいモデルを提案する。
動的プログラミング原理を含む厳密な理論結果を提供する。
全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。
論文 参考訳(メタデータ) (2023-07-12T14:02:03Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Settling the Variance of Multi-Agent Policy Gradients [14.558011059649543]
政策勾配法(PG法)は、一般的な強化学習法(RL法)である。
マルチエージェントRL(MARL)では、PG定理は自然に拡張できるが、勾配推定のばらつきがエージェント数とともに急速に増加するにつれて、マルチエージェントPG法の有効性は低下する。
エージェント数とエージェントの探索の貢献度を定量化し,MAPG法を厳密に分析する。
MARL の既存の PG メソッドにシームレスに接続可能な OB のサロゲートバージョンを提案する。
論文 参考訳(メタデータ) (2021-08-19T10:49:10Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Discrete-Time Mean Field Control with Environment States [25.44061731738579]
平均フィールド制御と平均フィールドゲームは、多くのエージェントとの大規模なマルチエージェント問題のためのトラクタブルソリューションとして確立されています。
有限エージェントケースでのエージェント数の増加に伴い、近似最適性を厳格に確立します。
動的プログラミングの原則が成り立ち、その結果、最適な定常的なポリシーが存在することが分かりました。
論文 参考訳(メタデータ) (2021-04-30T10:58:01Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Breaking the Curse of Many Agents: Provable Mean Embedding Q-Iteration
for Mean-Field Reinforcement Learning [135.64775986546505]
我々はマルチエージェント強化学習(MARL)におけるエージェントの対称性を利用する
我々は,平均場MARLを解くMF-FQIアルゴリズムを提案し,MF-FQIアルゴリズムの非漸近解析を確立する。
MF-FQIアルゴリズムは、多くの観測エージェントがMF-FQIアルゴリズムの性能を向上させるという意味で、「多くのエージェントの恵み」を享受する。
論文 参考訳(メタデータ) (2020-06-21T21:45:50Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。