論文の概要: Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.11251v1
- Date: Thu, 23 Sep 2021 09:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:55:08.683723
- Title: Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における信頼領域政策の最適化
- Authors: Jakub Grudzien Kuba, Ruiqing Chen, Munning Wen, Ying Wen, Fanglei Sun,
Jun Wang, Yaodong Yang
- Abstract要約: 信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
- 参考スコア(独自算出の注目度): 25.027143431992755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trust region methods rigorously enabled reinforcement learning (RL) agents to
learn monotonically improving policies, leading to superior performance on a
variety of tasks. Unfortunately, when it comes to multi-agent reinforcement
learning (MARL), the property of monotonic improvement may not simply apply;
this is because agents, even in cooperative games, could have conflicting
directions of policy updates. As a result, achieving a guaranteed improvement
on the joint policy where each agent acts individually remains an open
challenge. In this paper, we extend the theory of trust region learning to
MARL. Central to our findings are the multi-agent advantage decomposition lemma
and the sequential policy update scheme. Based on these, we develop
Heterogeneous-Agent Trust Region Policy Optimisation (HATPRO) and
Heterogeneous-Agent Proximal Policy Optimisation (HAPPO) algorithms. Unlike
many existing MARL algorithms, HATRPO/HAPPO do not need agents to share
parameters, nor do they need any restrictive assumptions on decomposibility of
the joint value function. Most importantly, we justify in theory the monotonic
improvement property of HATRPO/HAPPO. We evaluate the proposed methods on a
series of Multi-Agent MuJoCo and StarCraftII tasks. Results show that HATRPO
and HAPPO significantly outperform strong baselines such as IPPO, MAPPO and
MADDPG on all tested tasks, therefore establishing a new state of the art.
- Abstract(参考訳): 信頼領域法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができ、様々なタスクにおいて優れたパフォーマンスが得られる。
残念なことに、マルチエージェント強化学習(marl:multi-agent reinforcement learning)に関しては、単調改善の性質は単純に適用されない可能性がある。
その結果、各エージェントが個別に行動する共同政策の改善を保証することは、未解決の課題である。
本稿では,信頼領域学習の理論をMARLに拡張する。
我々の発見の中心は、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームである。
そこで我々は,不均一信頼地域政策最適化 (HATPRO) と不均一信頼地域政策最適化 (HAPPO) アルゴリズムを開発した。
多くの既存のMARLアルゴリズムとは異なり、HATRPO/HAPPOはパラメータを共有するエージェントを必要としない。
最も重要なことは、理論上HATRPO/HAPPOの単調改善特性を正当化することである。
提案手法をMulti-Agent MuJoCoとStarCraftIIの一連のタスクで評価する。
その結果, HATRPO と HAPPO はIPPO, MAPPO, MADDPG などの試験作業において, 高いベースラインを著しく上回り, 新たな最先端技術が確立された。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent
Policy Optimization [1.5501208213584152]
本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するため,ミラー・ダイスン法の拡張を提案する。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を利用する。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスク上でHAMDPOを評価し,最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-13T10:18:10Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Order Matters: Agent-by-agent Policy Optimization [41.017093493743765]
ポリシーをエージェント・バイ・エージェントに更新するシーケンシャルなスキームは、別の視点を提供し、高いパフォーマンスを示す。
サンプル効率を向上させるために,textbfAgent-by-textbfagent textbfPolicy textbfOptimization (A2PO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-13T09:24:34Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。