論文の概要: Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.06655v1
- Date: Wed, 14 Apr 2021 07:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 21:37:47.911349
- Title: Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための分解ソフトアクタークリティカル法
- Authors: Yuan Pu, Shaochen Wang, Rui Yang, Xin Yao, Bin Li
- Abstract要約: 実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
- 参考スコア(独自算出の注目度): 10.64928897082273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning methods have shown great performance on many
challenging cooperative multi-agent tasks. Two main promising research
directions are multi-agent value function decomposition and multi-agent policy
gradients. In this paper, we propose a new decomposed multi-agent soft
actor-critic (mSAC) method, which incorporates the idea of the multi-agent
value function decomposition and soft policy iteration framework effectively
and is a combination of novel and existing techniques, including decomposed Q
value network architecture, decentralized probabilistic policy, and
counterfactual advantage function (optional). Theoretically, mSAC supports
efficient off-policy learning and addresses credit assignment problem partially
in both discrete and continuous action spaces. Tested on StarCraft II
micromanagement cooperative multiagent benchmark, we empirically investigate
the performance of mSAC against its variants and analyze the effects of the
different components. Experimental results demonstrate that mSAC significantly
outperforms policy-based approach COMA, and achieves competitive results with
SOTA value-based approach Qmix on most tasks in terms of asymptotic perfomance
metric. In addition, mSAC achieves pretty good results on large action space
tasks, such as 2c_vs_64zg and MMM2.
- Abstract(参考訳): 深層強化学習法は,協調型マルチエージェント課題の多くにおいて優れた性能を示している。
2つの主要な研究方向は、マルチエージェント値関数分解とマルチエージェントポリシー勾配である。
本稿では,マルチエージェント価値関数分解とソフトポリシー反復フレームワークのアイデアを効果的に組み込んだ,分解q値ネットワークアーキテクチャ,分散確率的ポリシ,反事実的利益関数(オプション)などの新技術と既存技術を組み合わせた,分解型マルチエージェント・ソフトアクタ-クリティック(msac)手法を提案する。
理論的には、msacは効率的なオフポリシー学習をサポートし、部分的には離散的および連続的なアクションスペースでクレジット割り当て問題に対処する。
StarCraft IIマイクロマネジメント協調型マルチエージェントベンチマークを用いて,mSACの変動に対する性能を実験的に検討し,異なる成分の影響を解析した。
実験結果から,mSACはポリシーベースアプローチのCOMAを著しく上回り,漸近的パーフォマンス指標の観点から,ほとんどのタスクにおいてSOTA値ベースアプローチのQmixと競合する結果が得られた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクション空間のタスクでかなり良い結果を得る。
関連論文リスト
- UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Efficient Multi-Task Reinforcement Learning via Task-Specific Action Correction [10.388605128396678]
Task-Specific Action Correctionは複数のタスクの同時学習用に設計されている。
ACPは目標指向のスパース報酬を取り入れており、エージェントが長期的な視点を採用することができる。
付加的な報酬は、元の問題を多目的MTRL問題に変換する。
論文 参考訳(メタデータ) (2024-04-09T02:11:35Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Off-Policy Multi-Agent Decomposed Policy Gradients [30.389041305278045]
我々は、MAPGアルゴリズムの性能を阻害する原因を調査し、マルチエージェント分解ポリシー勾配法(DOP)を提案する。
DOPは効率的な非政治学習をサポートし、中央集権型ミスマッチと信用割当の問題に対処する。
さらに、StarCraft IIマイクロマネジメントベンチマークとマルチエージェント粒子環境に関する実証的な評価は、DOPが最先端の値ベースおよびポリシーベースのマルチエージェント強化学習アルゴリズムよりも大幅に優れていることを示している。
論文 参考訳(メタデータ) (2020-07-24T02:21:55Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。