論文の概要: FACMAC: Factored Multi-Agent Centralised Policy Gradients
- arxiv url: http://arxiv.org/abs/2003.06709v5
- Date: Fri, 7 May 2021 14:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 19:54:29.267238
- Title: FACMAC: Factored Multi-Agent Centralised Policy Gradients
- Title(参考訳): FACMAC: マルチエージェント型集中型政策グラディエント
- Authors: Bei Peng, Tabish Rashid, Christian A. Schroeder de Witt,
Pierre-Alexandre Kamienny, Philip H. S. Torr, Wendelin B\"ohmer, Shimon
Whiteson
- Abstract要約: FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
- 参考スコア(独自算出の注目度): 103.30380537282517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose FACtored Multi-Agent Centralised policy gradients (FACMAC), a new
method for cooperative multi-agent reinforcement learning in both discrete and
continuous action spaces. Like MADDPG, a popular multi-agent actor-critic
method, our approach uses deep deterministic policy gradients to learn
policies. However, FACMAC learns a centralised but factored critic, which
combines per-agent utilities into the joint action-value function via a
non-linear monotonic function, as in QMIX, a popular multi-agent Q-learning
algorithm. However, unlike QMIX, there are no inherent constraints on factoring
the critic. We thus also employ a nonmonotonic factorisation and empirically
demonstrate that its increased representational capacity allows it to solve
some tasks that cannot be solved with monolithic, or monotonically factored
critics. In addition, FACMAC uses a centralised policy gradient estimator that
optimises over the entire joint action space, rather than optimising over each
agent's action space separately as in MADDPG. This allows for more coordinated
policy changes and fully reaps the benefits of a centralised critic. We
evaluate FACMAC on variants of the multi-agent particle environments, a novel
multi-agent MuJoCo benchmark, and a challenging set of StarCraft II
micromanagement tasks. Empirical results demonstrate FACMAC's superior
performance over MADDPG and other baselines on all three domains.
- Abstract(参考訳): 本稿では,離散的および連続的行動空間における協調的マルチエージェント強化学習のための新しい手法であるファクタード・マルチエージェント集中化政策勾配(facmac)を提案する。
マルチエージェントのアクタ-批判手法であるmaddpgと同様、このアプローチは決定論的ポリシー勾配を用いてポリシーを学習する。
しかし、FACMACは、一般的なマルチエージェントQ-ラーニングアルゴリズムであるQMIXのように、アジェント毎のユーティリティを非線形単調関数を介してジョイントアクション値関数に結合する集中型だがファクタードされた批判を学習する。
しかし、QMIXとは異なり、批判を分解する固有の制約はない。
私たちはまた、非単調な因子分解を採用し、その表現能力の増大によって、モノリシックで、あるいは単調に因子づけされた批評家では解決できないいくつかのタスクが解決できることを実証的に証明する。
さらに、FACMACは、MADDPGのように各エージェントのアクション空間を個別に最適化するのではなく、ジョイントアクション空間全体を最適化する集中型ポリシー勾配推定器を使用する。
これにより、より協調的な政策変更が可能になり、中央集権的な批評家の利益を完全に享受することができる。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットを評価する。
実験の結果、FACMACはMADDPGや他の3つのドメインのベースラインよりも優れた性能を示した。
関連論文リスト
- SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。