論文の概要: QPLEX: Duplex Dueling Multi-Agent Q-Learning
- arxiv url: http://arxiv.org/abs/2008.01062v3
- Date: Mon, 4 Oct 2021 01:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:39:28.720858
- Title: QPLEX: Duplex Dueling Multi-Agent Q-Learning
- Title(参考訳): QPLEX: マルチエージェントQ-Learningによる重複
- Authors: Jianhao Wang, Zhizhou Ren, Terry Liu, Yang Yu, Chongjie Zhang
- Abstract要約: 我々は、分散実行型集中訓練(CTDE)の一般的なパラダイムにおける価値に基づくマルチエージェント強化学習(MARL)について検討する。
既存のMARLメソッドは、値関数クラスの表現を制限するか、パーソナライズ・グローバル・マックス(IGM)の原理を緩和する。
本稿では,DuPlexによるマルチエージェントQ-ラーニングについて述べる。
- 参考スコア(独自算出の注目度): 31.402074624147822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore value-based multi-agent reinforcement learning (MARL) in the
popular paradigm of centralized training with decentralized execution (CTDE).
CTDE has an important concept, Individual-Global-Max (IGM) principle, which
requires the consistency between joint and local action selections to support
efficient local decision-making. However, in order to achieve scalability,
existing MARL methods either limit representation expressiveness of their value
function classes or relax the IGM consistency, which may suffer from
instability risk or may not perform well in complex domains. This paper
presents a novel MARL approach, called duPLEX dueling multi-agent Q-learning
(QPLEX), which takes a duplex dueling network architecture to factorize the
joint value function. This duplex dueling structure encodes the IGM principle
into the neural network architecture and thus enables efficient value function
learning. Theoretical analysis shows that QPLEX achieves a complete IGM
function class. Empirical experiments on StarCraft II micromanagement tasks
demonstrate that QPLEX significantly outperforms state-of-the-art baselines in
both online and offline data collection settings, and also reveal that QPLEX
achieves high sample efficiency and can benefit from offline datasets without
additional online exploration.
- Abstract(参考訳): 本稿では,分散学習(CTDE)のパラダイムとして,価値に基づくマルチエージェント強化学習(MARL)を提案する。
CTDEはGlobal-Max(IGM)原理という重要な概念を持ち、効率的な局所的な意思決定を支援するために、共同行動選択と局所的な行動選択の整合性を必要とする。
しかし、スケーラビリティを達成するために、既存のMARLメソッドは、値関数クラスの表現表現力を制限するか、不安定なリスクに悩まされたり、複雑なドメインでうまく機能しないかもしれないIMG一貫性を緩和する。
本稿では,DupleX Duling Multi-Adnt Q-learning (QPLEX)と呼ばれる新しいMARL手法を提案する。
このデュプレックスデュエル構造は、IGG原理をニューラルネットワークアーキテクチャにエンコードし、効率的な値関数学習を可能にする。
理論的解析により、QPLEX は完全な IGM 関数クラスを達成することが示された。
starcraft iiのマイクロマネジメントタスクに関する実証実験は、qplexがオンラインとオフラインの両方のデータ収集設定において最先端のベースラインを著しく上回っており、またqplexは高いサンプル効率を達成し、さらにオンラインの探索なしにオフラインデータセットの恩恵を受けることを示している。
関連論文リスト
- MAPL: Model Agnostic Peer-to-peer Learning [2.9221371172659616]
我々は、異種パーソナライズされたモデルと協調グラフを同時に学習するために、MAPL(Model Agnostic Peer-to-peer Learning)を導入する。
MAPLは、(i)ローカルレベルのパーソナライズドモデルラーニング(PML)と、(ii)ネットワーク全体の分散協調グラフラーニング(CGL)という2つの主要なモジュールから構成され、局所的なタスク類似性に基づいて協調重みを動的に洗練する。
論文 参考訳(メタデータ) (2024-03-28T19:17:54Z) - MAIDCRL: Semi-centralized Multi-Agent Influence Dense-CNN Reinforcement
Learning [0.7366405857677227]
エージェント・インフルエンス・マップ(AIM)によって強化された半集中型Dense Reinforcement Learningアルゴリズムを用いて,StarCraft Multi-Agent Challenge (SMAC) シナリオにおける効果的なマルチエージェント制御を学習する。
その結果,CNN対応MAIDCRLは学習性能を大幅に向上し,既存のMAIDRLと比較して学習速度が向上した。
論文 参考訳(メタデータ) (2024-02-12T18:53:20Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。