論文の概要: QVMix and QVMix-Max: Extending the Deep Quality-Value Family of
Algorithms to Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.12062v1
- Date: Tue, 22 Dec 2020 14:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 12:15:05.151274
- Title: QVMix and QVMix-Max: Extending the Deep Quality-Value Family of
Algorithms to Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): QVMixとQVMix-Max: 協調型マルチエージェント強化学習へのアルゴリズムの深い品質価値ファミリーの拡張
- Authors: Pascal Leroy, Damien Ernst, Pierre Geurts, Gilles Louppe, Jonathan
Pisane, Matthia Sabatelli
- Abstract要約: 本稿では,マルチエージェント強化学習問題に取り組むための4つのアルゴリズムを提案する。
すべてのアルゴリズムは、Deep Quality-Valueアルゴリズムファミリに基づいている。
QVMix と QVMix-Max をよく知られた MARL 技術と比較した場合の競合結果を示す。
- 参考スコア(独自算出の注目度): 10.334745043233974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces four new algorithms that can be used for tackling
multi-agent reinforcement learning (MARL) problems occurring in cooperative
settings. All algorithms are based on the Deep Quality-Value (DQV) family of
algorithms, a set of techniques that have proven to be successful when dealing
with single-agent reinforcement learning problems (SARL). The key idea of DQV
algorithms is to jointly learn an approximation of the state-value function
$V$, alongside an approximation of the state-action value function $Q$. We
follow this principle and generalise these algorithms by introducing two fully
decentralised MARL algorithms (IQV and IQV-Max) and two algorithms that are
based on the centralised training with decentralised execution training
paradigm (QVMix and QVMix-Max). We compare our algorithms with state-of-the-art
MARL techniques on the popular StarCraft Multi-Agent Challenge (SMAC)
environment. We show competitive results when QVMix and QVMix-Max are compared
to well-known MARL techniques such as QMIX and MAVEN and show that QVMix can
even outperform them on some of the tested environments, being the algorithm
which performs best overall. We hypothesise that this is due to the fact that
QVMix suffers less from the overestimation bias of the $Q$ function.
- Abstract(参考訳): 本稿では,協調環境で発生するマルチエージェント強化学習(MARL)問題に対処するために,新しい4つのアルゴリズムを提案する。
すべてのアルゴリズムは、シングルエージェント強化学習問題(SARL)を扱う際に成功した一連の手法であるDeep Quality-Value (DQV)ファミリに基づいている。
DQVアルゴリズムの鍵となる考え方は、状態値関数 $V$ の近似と状態値関数 $Q$ の近似を共同で学習することである。
この原則に従い、分散実行訓練パラダイム(QVMixとQVMix-Max)を用いた集中学習に基づく2つの完全分散MARLアルゴリズム(IQVとIQV-Max)と2つのアルゴリズムを導入することにより、これらのアルゴリズムを一般化する。
我々は,このアルゴリズムを,スタークラフトマルチエージェントチャレンジ(SMAC)環境における最先端のMARL技術と比較した。
QVMix と QVMix-Max を QMIX や MAVEN といった有名な MARL 技術と比較すると,QVMix がテスト環境のいくつかよりも優れていることを示す。
これは、QVMixが$Q$関数の過大評価バイアスに苦しむことによるものであると仮定する。
関連論文リスト
- Coverage Analysis for Digital Cousin Selection -- Improving Multi-Environment Q-Learning [24.212773534280387]
近年の進歩としては、マルチ環境混合Q-ラーニング(MEMQ)アルゴリズムがある。
MEMQアルゴリズムは、精度、複雑さ、堅牢性の点で、最先端のQ-ラーニングアルゴリズムよりも優れています。
本稿では,既存のMEMQアルゴリズムの精度と複雑さを改善するために,新しいCCベースのMEMQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-13T06:16:12Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent
Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。
各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-09-17T04:54:32Z) - V-Learning -- A Simple, Efficient, Decentralized Algorithm for
Multiagent RL [35.304241088947116]
V-ラーニング(V-learning)は、任意の反逆バンディットアルゴリズムをRLアルゴリズムに変換する、単エージェントRLアルゴリズムの新しいクラスである。
Q-ラーニングとは異なり、Q-値の代わりにV-値の推定だけを保持する。
論文 参考訳(メタデータ) (2021-10-27T16:25:55Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。