論文の概要: Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.08839v2
- Date: Thu, 27 Aug 2020 13:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:57:25.519051
- Title: Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning
- Title(参考訳): 深層マルチエージェント強化学習のための単調値関数分解
- Authors: Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory
Farquhar, Jakob Foerster, Shimon Whiteson
- Abstract要約: QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
- 参考スコア(独自算出の注目度): 55.20040781688844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world settings, a team of agents must coordinate its behaviour
while acting in a decentralised fashion. At the same time, it is often possible
to train the agents in a centralised fashion where global state information is
available and communication constraints are lifted. Learning joint
action-values conditioned on extra state information is an attractive way to
exploit centralised learning, but the best strategy for then extracting
decentralised policies is unclear. Our solution is QMIX, a novel value-based
method that can train decentralised policies in a centralised end-to-end
fashion. QMIX employs a mixing network that estimates joint action-values as a
monotonic combination of per-agent values. We structurally enforce that the
joint-action value is monotonic in the per-agent values, through the use of
non-negative weights in the mixing network, which guarantees consistency
between the centralised and decentralised policies. To evaluate the performance
of QMIX, we propose the StarCraft Multi-Agent Challenge (SMAC) as a new
benchmark for deep multi-agent reinforcement learning. We evaluate QMIX on a
challenging set of SMAC scenarios and show that it significantly outperforms
existing multi-agent reinforcement learning methods.
- Abstract(参考訳): 多くの実世界の環境では、エージェントのチームは分散された方法で行動しながら行動を調整する必要がある。
同時に、グローバルな状態情報が利用可能で、通信制約が解除された集中型の方法でエージェントをトレーニングすることもしばしば可能である。
余分な状態情報に基づく共同行動価値の学習は集中学習を活用するための魅力的な方法であるが、分散した政策を抽出するための最善の戦略は明確ではない。
当社のソリューションは,集中型エンドツーエンド方式で分散ポリシをトレーニング可能な,新しい価値ベースのQMIXです。
QMIXは、結合アクション値をエージェントごとの値の単調な組み合わせとして推定する混合ネットワークを採用している。
我々は,混合ネットワークにおける非負重みの利用により,結合作用値がエージェントごとの単調であることを構造的に強制し,中央集権と分散化ポリシの整合性を保証する。
QMIXの性能を評価するため,深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
我々は,SMACシナリオの難易度でQMIXを評価し,既存のマルチエージェント強化学習法よりも優れていることを示す。
関連論文リスト
- Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Credit Assignment with Meta-Policy Gradient for Multi-Agent
Reinforcement Learning [29.895142928565228]
MNMPG(Meta Policy Gradient)フレームワークを用いた一般的なメタラーニングベースの混合ネットワークを提案し、繊細な報酬分解のためにグローバルな階層を蒸留します。
starcraft iiのマイクロマネジメントベンチマークによる実験では、単純なユーティリティネットワークだけで現在のmarlアルゴリズムを上回ることができることが示されている。
論文 参考訳(メタデータ) (2021-02-24T12:03:37Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。