論文の概要: Centralized Permutation Equivariant Policy for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.11706v1
- Date: Wed, 13 Aug 2025 22:10:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.28422
- Title: Centralized Permutation Equivariant Policy for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための集中型置換同変ポリシー
- Authors: Zhuofan Xu, Benedikt Bollig, Matthias Függer, Thomas Nowak, Vincent Le Dréau,
- Abstract要約: 制約を克服するために,完全集中型ポリシを利用する集中型トレーニング・実行フレームワークであるPermutation Equivariant (CPE) 学習を提案する。
我々のアプローチは,軽量でスケーラブルで実装が容易な,新しい置換同変アーキテクチャであるGlobal-Local Permutation Equivariant (GLPE) ネットワークを活用する。
- 参考スコア(独自算出の注目度): 0.11650821883155184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Centralized Training with Decentralized Execution (CTDE) paradigm has gained significant attention in multi-agent reinforcement learning (MARL) and is the foundation of many recent algorithms. However, decentralized policies operate under partial observability and often yield suboptimal performance compared to centralized policies, while fully centralized approaches typically face scalability challenges as the number of agents increases. We propose Centralized Permutation Equivariant (CPE) learning, a centralized training and execution framework that employs a fully centralized policy to overcome these limitations. Our approach leverages a novel permutation equivariant architecture, Global-Local Permutation Equivariant (GLPE) networks, that is lightweight, scalable, and easy to implement. Experiments show that CPE integrates seamlessly with both value decomposition and actor-critic methods, substantially improving the performance of standard CTDE algorithms across cooperative benchmarks including MPE, SMAC, and RWARE, and matching the performance of state-of-the-art RWARE implementations.
- Abstract(参考訳): 分散実行による集中訓練(CTDE)パラダイムは、マルチエージェント強化学習(MARL)において大きな注目を集め、近年の多くのアルゴリズムの基礎となっている。
しかしながら、分散化されたポリシーは部分的な可観測性の下で動作し、中央集権的なポリシーと比較して、しばしば準最適性能をもたらす。
我々は,これらの制限を克服するために,完全集中型ポリシを利用する集中型トレーニング・実行フレームワークであるCPE学習を提案する。
我々のアプローチは,軽量でスケーラブルで実装が容易な,新しい置換同変アーキテクチャGlobal-Local Permutation Equivariant (GLPE) ネットワークを活用する。
実験の結果、CPEは値分解とアクター批判の両方の手法とシームレスに統合され、MPE、SMAC、RWAREを含む協調ベンチマークにおける標準CTDEアルゴリズムの性能が大幅に向上し、最先端のRWARE実装の性能に適合していることが示されている。
関連論文リスト
- Multi-Agent Guided Policy Optimization [36.853129816484845]
分散実行訓練(CTDE)は,協調型マルチエージェント強化学習(MARL)において支配的なパラダイムとなっている。
我々は,集中型指導と集中型実行を統合することで,集中型訓練をよりよく活用する新しいフレームワークであるMulti-Agent Guided Policy Optimization (MAGPO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T03:22:21Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。