論文の概要: Value Functions Factorization with Latent State Information Sharing in
Decentralized Multi-Agent Policy Gradients
- arxiv url: http://arxiv.org/abs/2201.01247v2
- Date: Tue, 18 Apr 2023 20:30:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 18:26:51.927383
- Title: Value Functions Factorization with Latent State Information Sharing in
Decentralized Multi-Agent Policy Gradients
- Title(参考訳): 分散マルチエージェント政策勾配における潜在状態情報共有を伴う値関数の分解
- Authors: Hanhan Zhou, Tian Lan, Vaneet Aggarwal
- Abstract要約: LSF-SACは、変分推論に基づく情報共有機構を余分な状態情報として特徴付ける新しいフレームワークである。
我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
- 参考スコア(独自算出の注目度): 43.862956745961654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value function factorization via centralized training and decentralized
execution is promising for solving cooperative multi-agent reinforcement tasks.
One of the approaches in this area, QMIX, has become state-of-the-art and
achieved the best performance on the StarCraft II micromanagement benchmark.
However, the monotonic-mixing of per agent estimates in QMIX is known to
restrict the joint action Q-values it can represent, as well as the
insufficient global state information for single agent value function
estimation, often resulting in suboptimality. To this end, we present LSF-SAC,
a novel framework that features a variational inference-based
information-sharing mechanism as extra state information to assist individual
agents in the value function factorization. We demonstrate that such latent
individual state information sharing can significantly expand the power of
value function factorization, while fully decentralized execution can still be
maintained in LSF-SAC through a soft-actor-critic design. We evaluate LSF-SAC
on the StarCraft II micromanagement challenge and demonstrate that it
outperforms several state-of-the-art methods in challenging collaborative
tasks. We further set extensive ablation studies for locating the key factors
accounting for its performance improvements. We believe that this new insight
can lead to new local value estimation methods and variational deep learning
algorithms. A demo video and code of implementation can be found at
https://sites.google.com/view/sacmm.
- Abstract(参考訳): 集中型トレーニングと分散実行による価値関数の分解は、協調型マルチエージェント強化タスクの解決に有効である。
この領域におけるアプローチの1つ、QMIXは最先端になり、StarCraft IIマイクロマネジメントベンチマークで最高のパフォーマンスを達成した。
しかし、QMIXにおけるエージェント1個当たりの単調混合は、表現できる共同動作 Q-値を制限することや、単一のエージェント値関数の推定に不十分な大域的状態情報を制限することが知られている。
そこで本研究では,変動推論に基づく情報共有機構を付加的な状態情報として活用し,価値関数因子化における個々のエージェントを支援する新しいフレームワーク lsf-sac を提案する。
このような潜在的な個々の状態情報共有は価値関数因子化の力を著しく拡大できるが、完全に分散化された実行はソフト・アクタ・クリティックな設計によってlsf-sacで維持できる。
我々は,StarCraft II マイクロマネジメント課題における LSF-SAC の評価を行った。
さらに,その性能向上に寄与する重要な要因を特定するため,広範なアブレーション研究を行った。
この新たな洞察が,新たな局所値推定法や変分深層学習アルゴリズムに繋がると信じている。
デモビデオと実装コードはhttps://sites.google.com/view/sacmmで見ることができる。
関連論文リスト
- QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Boosting Value Decomposition via Unit-Wise Attentive State
Representation for Cooperative Multi-Agent Reinforcement Learning [11.843811402154408]
半可観測性を緩和し,UNSR(UNit-wise Attentive State Representation)による協調を効果的に促進する,シンプルかつ強力な手法を提案する。
UNSRでは、各エージェントは変換器ブロックから出力されるコンパクトで不整合な単位状態表現を学習し、その局所的なアクション値関数を生成する。
実験の結果,Star IICraftマイクロマネジメントの課題に対して,ソリッドベースラインよりも優れた性能とデータ効率が得られた。
論文 参考訳(メタデータ) (2023-05-12T00:33:22Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。