論文の概要: Multi-Agent Reinforcement Learning via Mean Field Control: Common Noise,
Major Agents and Approximation Properties
- arxiv url: http://arxiv.org/abs/2303.10665v1
- Date: Sun, 19 Mar 2023 14:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 18:05:03.636923
- Title: Multi-Agent Reinforcement Learning via Mean Field Control: Common Noise,
Major Agents and Approximation Properties
- Title(参考訳): 平均場制御によるマルチエージェント強化学習:共通雑音,主要エージェント,近似特性
- Authors: Kai Cui, Christian Fabian, Heinz Koeppl
- Abstract要約: 我々はマルコフ決定過程と平均場制御(M3FC)の新しい離散時間一般化を提案する。
M3FCは、主要なエージェント状態を介して、マイナーエージェント間の強い相関関係を持つマイナーエージェント分布を許容する。
本稿では,新しいマルチエージェント強化学習アルゴリズムとして,M3FPPO(Major-minor mean field Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 26.405495663998828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, mean field control (MFC) has provided a tractable and theoretically
founded approach to otherwise difficult cooperative multi-agent control.
However, the strict assumption of many independent, homogeneous agents may be
too stringent in practice. In this work, we propose a novel discrete-time
generalization of Markov decision processes and MFC to both many minor agents
and potentially complex major agents -- major-minor mean field control (M3FC).
In contrast to deterministic MFC, M3FC allows for stochastic minor agent
distributions with strong correlation between minor agents through the major
agent state, which can model arbitrary problem details not bound to any agent.
Theoretically, we give rigorous approximation properties with novel proofs for
both M3FC and existing MFC models in the finite multi-agent problem, together
with a dynamic programming principle for solving such problems. In the
infinite-horizon discounted case, existence of an optimal stationary policy
follows. Algorithmically, we propose the major-minor mean field proximal policy
optimization algorithm (M3FPPO) as a novel multi-agent reinforcement learning
algorithm and demonstrate its success in illustrative M3FC-type problems.
- Abstract(参考訳): 近年,平均場制御 (mfc) は, 難解な協調型マルチエージェント制御に対して, 誘導可能かつ理論的に確立されたアプローチを提供している。
しかし、多くの独立で均質なエージェントの厳密な仮定は実際には厳密すぎるかもしれない。
本研究では、マルコフ決定過程とMFCの離散時間一般化を、多くのマイナーエージェントと潜在的に複雑なメジャーエージェント(M3FC)の両方に提案する。
決定論的MFCとは対照的に、M3FCはマイナーエージェント間の強い相関関係を持つ確率的マイナーエージェント分布を主要なエージェント状態を通じて許容する。
理論的には、有限マルチエージェント問題において、M3FCモデルと既存のMFCモデルの両方に対する新しい証明を伴う厳密な近似特性と、そのような問題を解決するための動的プログラミング原理を与える。
無限ホリゾンディスカウントの場合、最適な定常ポリシーの存在は次のようになる。
アルゴリズムとして,新しいマルチエージェント強化学習アルゴリズムとして,m3fppoを提案するとともに,m3fc型問題におけるその成功を実証する。
関連論文リスト
- Learning Decentralized Partially Observable Mean Field Control for
Artificial Collective Behavior [28.313779052437134]
分散部分観測可能なMFC(Dec-POMFC)の新しいモデルを提案する。
動的プログラミング原理を含む厳密な理論結果を提供する。
全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。
論文 参考訳(メタデータ) (2023-07-12T14:02:03Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Discrete-Time Mean Field Control with Environment States [25.44061731738579]
平均フィールド制御と平均フィールドゲームは、多くのエージェントとの大規模なマルチエージェント問題のためのトラクタブルソリューションとして確立されています。
有限エージェントケースでのエージェント数の増加に伴い、近似最適性を厳格に確立します。
動的プログラミングの原則が成り立ち、その結果、最適な定常的なポリシーが存在することが分かりました。
論文 参考訳(メタデータ) (2021-04-30T10:58:01Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。