論文の概要: Off-Policy Multi-Agent Decomposed Policy Gradients
- arxiv url: http://arxiv.org/abs/2007.12322v2
- Date: Sun, 4 Oct 2020 08:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:23:04.880961
- Title: Off-Policy Multi-Agent Decomposed Policy Gradients
- Title(参考訳): オフポリティ・マルチエージェント分解政策のグラディエント
- Authors: Yihan Wang, Beining Han, Tonghan Wang, Heng Dong, Chongjie Zhang
- Abstract要約: 我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
- 参考スコア(独自算出の注目度): 30.389041305278045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent policy gradient (MAPG) methods recently witness vigorous
progress. However, there is a significant performance discrepancy between MAPG
methods and state-of-the-art multi-agent value-based approaches. In this paper,
we investigate causes that hinder the performance of MAPG algorithms and
present a multi-agent decomposed policy gradient method (DOP). This method
introduces the idea of value function decomposition into the multi-agent
actor-critic framework. Based on this idea, DOP supports efficient off-policy
learning and addresses the issue of centralized-decentralized mismatch and
credit assignment in both discrete and continuous action spaces. We formally
show that DOP critics have sufficient representational capability to guarantee
convergence. In addition, empirical evaluations on the StarCraft II
micromanagement benchmark and multi-agent particle environments demonstrate
that DOP significantly outperforms both state-of-the-art value-based and
policy-based multi-agent reinforcement learning algorithms. Demonstrative
videos are available at https://sites.google.com/view/dop-mapg/.
- Abstract(参考訳): マルチエージェント・ポリシー・グラデーション(MAPG)手法は近年活発に進展している。
しかし、MAPG法と最先端のマルチエージェント値ベースアプローチの間には大きな性能差がある。
本稿では,MAPGアルゴリズムの性能を阻害する原因について検討し,マルチエージェント分解ポリシー勾配法(DOP)を提案する。
この手法は、値関数分解の考え方をマルチエージェントアクター批判フレームワークに導入する。
この考え方に基づいて、DOPは効率的な非政治学習をサポートし、離散的かつ連続的な行動空間における集中分散型ミスマッチとクレジット割り当ての問題に対処する。
我々は、DOP批判者が収束を保証するのに十分な表現能力があることを正式に示す。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
デモ動画はhttps://sites.google.com/view/dop-mapg/で閲覧できる。
関連論文リスト
- TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy
Gradient [36.83464785085713]
本稿では,他のエージェントを政策として考慮すべきかどうかを判断するエージェントトポロジフレームワークを提案する。
エージェントは、グローバルユーティリティではなく、連立ユーティリティを学習目的として使用することができる。
我々は,TAPEの政策改善定理を証明し,エージェント間の協調性の向上に関する理論的説明を行う。
論文 参考訳(メタデータ) (2023-12-25T09:24:33Z) - Optimistic Multi-Agent Policy Gradient [23.781837938235036]
相対的過一般化 (Relative Over generalization, RO) は、エージェントが準最適結合ポリシーに向かって収束する際に起こる。
マルチエージェントポリシー勾配(MAPG)法では,ROに対処する手法は提案されていない。
本稿では,RO問題を緩和するMAPG手法の楽観的な更新を可能にする,汎用的でシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:47:54Z) - DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm [48.60180355291149]
本稿では,多段階政策改善と政策評価を組み合わせた新しいオラクルアルゴリズムDoMo-VIを提案する。
次に,DoMo-VIアルゴリズムの現実的なインスタンス化である2段階のオフポリチック・アクター・クリティック(DoMo-AC)を提案する。
論文 参考訳(メタデータ) (2023-05-29T14:36:51Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。