論文の概要: Learning Decentralized Partially Observable Mean Field Control for
Artificial Collective Behavior
- arxiv url: http://arxiv.org/abs/2307.06175v2
- Date: Thu, 22 Feb 2024 22:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:17:22.663931
- Title: Learning Decentralized Partially Observable Mean Field Control for
Artificial Collective Behavior
- Title(参考訳): 学習による集団行動の分散的部分観測可能な平均場制御
- Authors: Kai Cui, Sascha Hauck, Christian Fabian, Heinz Koeppl
- Abstract要約: 分散部分観測可能なMFC(Dec-POMFC)の新しいモデルを提案する。
動的プログラミング原理を含む厳密な理論結果を提供する。
全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。
- 参考スコア(独自算出の注目度): 28.313779052437134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reinforcement learning (RL) methods have achieved success in various
domains. However, multi-agent RL (MARL) remains a challenge in terms of
decentralization, partial observability and scalability to many agents.
Meanwhile, collective behavior requires resolution of the aforementioned
challenges, and remains of importance to many state-of-the-art applications
such as active matter physics, self-organizing systems, opinion dynamics, and
biological or robotic swarms. Here, MARL via mean field control (MFC) offers a
potential solution to scalability, but fails to consider decentralized and
partially observable systems. In this paper, we enable decentralized behavior
of agents under partial information by proposing novel models for decentralized
partially observable MFC (Dec-POMFC), a broad class of problems with
permutation-invariant agents allowing for reduction to tractable single-agent
Markov decision processes (MDP) with single-agent RL solution. We provide
rigorous theoretical results, including a dynamic programming principle,
together with optimality guarantees for Dec-POMFC solutions applied to finite
swarms of interest. Algorithmically, we propose Dec-POMFC-based policy gradient
methods for MARL via centralized training and decentralized execution, together
with policy gradient approximation guarantees. In addition, we improve upon
state-of-the-art histogram-based MFC by kernel methods, which is of separate
interest also for fully observable MFC. We evaluate numerically on
representative collective behavior tasks such as adapted Kuramoto and Vicsek
swarming models, being on par with state-of-the-art MARL. Overall, our
framework takes a step towards RL-based engineering of artificial collective
behavior via MFC.
- Abstract(参考訳): 近年の強化学習(RL)法は様々な分野で成功している。
しかし、マルチエージェントRL(MARL)は多くのエージェントに対する分散化、部分観測可能性、スケーラビリティの観点からも課題である。
一方、集団行動は前述の課題の解決を必要とし、アクティブマター物理学、自己組織化システム、意見力学、生物学的またはロボットの群れなど、最先端の多くの応用において重要なままである。
ここで、marl via mean field control (mfc) はスケーラビリティに対する潜在的なソリューションを提供するが、分散的で部分的に観測可能なシステムを考えることができない。
本稿では,分散化された部分観測可能なMFC(Dec-POMFC)の新たなモデルを提案することで,部分情報に基づくエージェントの分散動作を可能にする。
有限群群に適用したDec-POMFC解の最適性保証とともに、動的プログラミング原理を含む厳密な理論的結果を提供する。
アルゴリズムにより,中央集中型トレーニングと分散実行を通じ,dec-pomfcに基づくmarlのポリシー勾配手法を提案する。
さらに,完全観測可能なmfcにも関心があるカーネル法により,最先端のヒストグラムベースのmfcを改良した。
クラモトモデルやビクセックスワーミングモデルなど,代表的な集団行動タスクを数値的に評価し,最先端のmarlと同等に評価した。
全体として、我々のフレームワークは、MFCによる人工集合行動のRLに基づく工学への一歩を踏み出した。
関連論文リスト
- QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Monte-Carlo Search for an Equilibrium in Dec-POMDPs [11.726372393432195]
分散化された部分的に観測可能なマルコフ決定プロセス(Dec-POMDP)は、協調エージェントのグループに対する個々のコントローラの問題を形式化する。
ナッシュ均衡(各エージェント政策が、他のエージェントにとって最良の反応)を求めることは、よりアクセスしやすくなっている。
提案手法は,Dec-POMDPの生成モデル(シミュレータ)のみが利用可能である場合に適応可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:47:46Z) - Major-Minor Mean Field Multi-Agent Reinforcement Learning [29.296206774925388]
マルチエージェント強化学習(MARL)は多くのエージェントに拡張することが困難である。
平均場制御(MFC)を用いた最近のMARLは、他の難易度の高いMARLに対するトラクタブルで厳密なアプローチを提供する。
我々は、MFCを多種多様な複雑なエージェントを同時にモデル化するように一般化する。
論文 参考訳(メタデータ) (2023-03-19T14:12:57Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。