論文の概要: F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.11145v2
- Date: Fri, 7 Jul 2023 05:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 16:21:51.594204
- Title: F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning
- Title(参考訳): F2A2: 協調型マルチエージェント強化学習のためのフレキシブル完全分散近似アクタ批判
- Authors: Wenhao Li and Bo Jin and Xiangfeng Wang and Junchi Yan and Hongyuan
Zha
- Abstract要約: 分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
- 参考スコア(独自算出の注目度): 110.35516334788687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional centralized multi-agent reinforcement learning (MARL) algorithms
are sometimes unpractical in complicated applications, due to non-interactivity
between agents, curse of dimensionality and computation complexity. Hence,
several decentralized MARL algorithms are motivated. However, existing
decentralized methods only handle the fully cooperative setting where massive
information needs to be transmitted in training. The block coordinate gradient
descent scheme they used for successive independent actor and critic steps can
simplify the calculation, but it causes serious bias. In this paper, we propose
a flexible fully decentralized actor-critic MARL framework, which can combine
most of actor-critic methods, and handle large-scale general cooperative
multi-agent setting. A primal-dual hybrid gradient descent type algorithm
framework is designed to learn individual agents separately for
decentralization. From the perspective of each agent, policy improvement and
value evaluation are jointly optimized, which can stabilize multi-agent policy
learning. Furthermore, our framework can achieve scalability and stability for
large-scale environment and reduce information transmission, by the parameter
sharing mechanism and a novel modeling-other-agents methods based on
theory-of-mind and online supervised learning. Sufficient experiments in
cooperative Multi-agent Particle Environment and StarCraft II show that our
decentralized MARL instantiation algorithms perform competitively against
conventional centralized and decentralized methods.
- Abstract(参考訳): 従来の集中型マルチエージェント強化学習(marl)アルゴリズムは、エージェント間の非相互作用、次元の呪い、計算複雑性のため、複雑なアプリケーションでは実践的でないことがある。
したがって、複数の分散marlアルゴリズムが動機付けされている。
しかし、既存の分散化手法は、訓練中に大量の情報を伝達する必要がある完全に協調的な設定のみを扱う。
連続的な独立アクターや批評家のステップに使用するブロック座標勾配降下スキームは計算を単純化することができるが、重大なバイアスを引き起こす。
本稿では,アクター批判手法の大部分が組み合わさり,大規模で汎用的なマルチエージェント設定を処理できる,フレキシブルな完全分散型アクター批判型MARLフレームワークを提案する。
分散化のために個別のエージェントを別々に学習するように設計されている。
各エージェントの観点からは、政策改善と価値評価を共同で最適化し、マルチエージェント政策学習を安定化させる。
さらに,本フレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,パラメータ共有機構とオンライン教師あり学習に基づく新しいモデリング支援手法により情報伝達を低減する。
協調型多エージェント粒子環境とStarCraft IIにおける十分な実験により,従来の集中型・分散型手法と競合する分散型MARLインスタンス化アルゴリズムが得られた。
関連論文リスト
- SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Towards Global Optimality in Cooperative MARL with the Transformation
And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である
本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。
我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:59:13Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network
Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。
鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文 参考訳(メタデータ) (2021-08-05T16:52:36Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Lyapunov-Based Reinforcement Learning for Decentralized Multi-Agent
Control [3.3788926259119645]
分散マルチエージェント制御では、システムは未知あるいは非常に不確実なダイナミクスで複雑である。
深層強化学習(DRL)は、システムダイナミクスを知らずに、データからコントローラや政治を学ぶことを約束している。
既存のマルチエージェント強化学習(MARL)アルゴリズムは、マルチエージェントシステムの閉ループ安定性を保証することができない。
安定保証付き分散マルチエージェント制御のための新しいMARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-20T06:11:42Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。