論文の概要: Divergence-Regularized Multi-Agent Actor-Critic
- arxiv url: http://arxiv.org/abs/2110.00304v1
- Date: Fri, 1 Oct 2021 10:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:41:46.747765
- Title: Divergence-Regularized Multi-Agent Actor-Critic
- Title(参考訳): ダイバージェンス規則化多エージェントアクター臨界
- Authors: Kefan Su and Zongqing Lu
- Abstract要約: 我々は、分散正規化マルチエージェント・アクター・クリティック(DMAC)という、政治以外の新しい協調型MARLフレームワークを提案する。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
DMACは既存のMARLアルゴリズムの性能を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 17.995905582226467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entropy regularization is a popular method in reinforcement learning (RL).
Although it has many advantages, it alters the RL objective and makes the
converged policy deviate from the optimal policy of the original Markov
Decision Process. Though divergence regularization has been proposed to settle
this problem, it cannot be trivially applied to cooperative multi-agent
reinforcement learning (MARL). In this paper, we investigate divergence
regularization in cooperative MARL and propose a novel off-policy cooperative
MARL framework, divergence-regularized multi-agent actor-critic (DMAC).
Mathematically, we derive the update rule of DMAC which is naturally
off-policy, guarantees a monotonic policy improvement and is not biased by the
regularization. DMAC is a flexible framework and can be combined with many
existing MARL algorithms. We evaluate DMAC in a didactic stochastic game and
StarCraft Multi-Agent Challenge and empirically show that DMAC substantially
improves the performance of existing MARL algorithms.
- Abstract(参考訳): エントロピー正則化は強化学習(RL)において一般的な方法である。
多くの利点があるが、rlの目標を変更し、収束した政策を元のマルコフ決定プロセスの最適方針から逸脱させる。
この問題を解決するために分散正規化が提案されているが、協調型マルチエージェント強化学習(MARL)には自明に適用できない。
本稿では、協調的MARLにおける分散正規化について検討し、分散正規化マルチエージェント・アクター・クリティック(DMAC)である非政治的協調的MARLフレームワークを提案する。
数学的には、DMACの更新規則は自然に非政治的であり、単調な政策改善を保証し、正規化には偏らない。
DMACはフレキシブルなフレームワークであり、既存のMARLアルゴリズムと組み合わせることができる。
我々はDMACを,DMACとStarCraft Multi-Agent Challengeで評価し,DMACが既存のMARLアルゴリズムの性能を大幅に向上することを示す。
関連論文リスト
- AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent
Policy Optimization [1.5501208213584152]
本稿では,MARL(Multi-Agent Reinforcement Learning)設定における課題を克服するため,ミラー・ダイスン法の拡張を提案する。
提案したヘテロジニアスミラーDescent Policy Optimization (HAMDPO) アルゴリズムは,マルチエージェント・アドバンスト分解補題を利用する。
我々は,Multi-Agent MuJoCoおよびStarCraftIIタスク上でHAMDPOを評価し,最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-13T10:18:10Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。