論文の概要: The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games
- arxiv url: http://arxiv.org/abs/2103.01955v1
- Date: Tue, 2 Mar 2021 18:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:00:21.121885
- Title: The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games
- Title(参考訳): 多エージェント協調ゲームにおけるMAPPOのサプライズ効果
- Authors: Chao Yu, Akash Velu, Eugene Vinitsky, Yu Wang, Alexandre Bayen, Yi Wu
- Abstract要約: マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 67.47961797770249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) is a popular on-policy reinforcement
learning algorithm but is significantly less utilized than off-policy learning
algorithms in multi-agent problems. In this work, we investigate Multi-Agent
PPO (MAPPO), a multi-agent PPO variant which adopts a centralized value
function. Using a 1-GPU desktop, we show that MAPPO achieves performance
comparable to the state-of-the-art in three popular multi-agent testbeds: the
Particle World environments, Starcraft II Micromanagement Tasks, and the Hanabi
Challenge, with minimal hyperparameter tuning and without any domain-specific
algorithmic modifications or architectures. In the majority of environments, we
find that compared to off-policy baselines, MAPPO achieves better or comparable
sample complexity as well as substantially faster running time. Finally, we
present 5 factors most influential to MAPPO's practical performance with
ablation studies.
- Abstract(参考訳): Proximal Policy Optimization(PPO)は、ポピュラーなオンポリシー強化学習アルゴリズムであるが、マルチエージェント問題におけるオフポリシー学習アルゴリズムよりも大幅に少ない。
本研究では,集中型値関数を採用したマルチエージェントPPO (Multi-Agent PPO) の変種について検討する。
1GPUデスクトップを使用して、MAPPOが3つの一般的なマルチエージェントテストベッド(パーティクルワールド環境、Starcraft II Micromanagement Tasks、Hanabi Challenge)で最先端のパフォーマンスを実現し、ハイパーパラメータのチューニングを最小限に抑え、ドメイン固有のアルゴリズムの変更やアーキテクチャなしで達成できることを示します。
ほとんどの環境において、MAPPOはオフポリシのベースラインと比較して、サンプルの複雑さと実行時間の大幅な短縮を実現していることがわかります。
最後に、MAPPOの実用性能に最も影響する5つの要因をアブレーション研究で紹介します。
関連論文リスト
- Multi-agent Reinforcement Learning for Energy Saving in Multi-Cell
Massive MIMO Systems [6.614630708703594]
マルチセルネットワークにおける基地局 (BS) の総エネルギー消費を最小化するマルチエージェント強化学習 (MARL) アルゴリズムを開発した。
トレーニングされたMAPPOエージェントは,基本方針よりも優れた性能を示すことを示す。
具体的には、オートスリープモード1のアルゴリズムと比較して、MAPPO隣のポリシーは低交通時間帯では消費電力を約8.7%削減し、高交通時間帯ではエネルギー効率を約19%向上させる。
論文 参考訳(メタデータ) (2024-02-05T17:15:00Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric [0.0]
深層強化学習に基づくアルゴリズムとして、PPO(Proximal Policy Optimization)は多くの複雑なタスクでよく機能する。
Clip-PPOは様々な実践的なシナリオで広く使われており、多くの研究者の注目を集めている。
より理論的なアルゴリズムとして、KL-PPOはCliP-PPOほど性能が良くなかったため無視された。
論文 参考訳(メタデータ) (2021-10-20T12:20:52Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。