論文の概要: The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games
- arxiv url: http://arxiv.org/abs/2103.01955v1
- Date: Tue, 2 Mar 2021 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:00:21.121885
- Title: The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games
- Title(参考訳): 多エージェント協調ゲームにおけるMAPPOのサプライズ効果
- Authors: Chao Yu, Akash Velu, Eugene Vinitsky, Yu Wang, Alexandre Bayen, Yi Wu
- Abstract要約: マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 67.47961797770249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) is a popular on-policy reinforcement
learning algorithm but is significantly less utilized than off-policy learning
algorithms in multi-agent problems. In this work, we investigate Multi-Agent
PPO (MAPPO), a multi-agent PPO variant which adopts a centralized value
function. Using a 1-GPU desktop, we show that MAPPO achieves performance
comparable to the state-of-the-art in three popular multi-agent testbeds: the
Particle World environments, Starcraft II Micromanagement Tasks, and the Hanabi
Challenge, with minimal hyperparameter tuning and without any domain-specific
algorithmic modifications or architectures. In the majority of environments, we
find that compared to off-policy baselines, MAPPO achieves better or comparable
sample complexity as well as substantially faster running time. Finally, we
present 5 factors most influential to MAPPO's practical performance with
ablation studies.
- Abstract(参考訳): Proximal Policy Optimization(PPO)は、ポピュラーなオンポリシー強化学習アルゴリズムであるが、マルチエージェント問題におけるオフポリシー学習アルゴリズムよりも大幅に少ない。
本研究では,集中型値関数を採用したマルチエージェントPPO (Multi-Agent PPO) の変種について検討する。
1GPUデスクトップを使用して、MAPPOが3つの一般的なマルチエージェントテストベッド(パーティクルワールド環境、Starcraft II Micromanagement Tasks、Hanabi Challenge)で最先端のパフォーマンスを実現し、ハイパーパラメータのチューニングを最小限に抑え、ドメイン固有のアルゴリズムの変更やアーキテクチャなしで達成できることを示します。
ほとんどの環境において、MAPPOはオフポリシのベースラインと比較して、サンプルの複雑さと実行時間の大幅な短縮を実現していることがわかります。
最後に、MAPPOの実用性能に最も影響する5つの要因をアブレーション研究で紹介します。
関連論文リスト
- Assigning Credit with Partial Reward Decoupling in Multi-Agent Proximal Policy Optimization [22.148299126441966]
本稿では,MAPPOの改善に向け,近年の信用代入に適応したマルチエージェント強化学習アルゴリズムを提案する。
当社のアプローチであるPRD-MAPPOは、将来期待される報酬に影響を与えないチームメイトからエージェントを分離することで、クレジットの割り当てを合理化します。
PRD-MAPPOはMAPPOと他の最先端手法と比較してデータ効率と性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-08-08T08:18:05Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。