論文の概要: QVMix and QVMix-Max: Extending the Deep Quality-Value Family of
Algorithms to Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.12062v1
- Date: Tue, 22 Dec 2020 14:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 12:15:05.151274
- Title: QVMix and QVMix-Max: Extending the Deep Quality-Value Family of
Algorithms to Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): QVMixとQVMix-Max: 協調型マルチエージェント強化学習へのアルゴリズムの深い品質価値ファミリーの拡張
- Authors: Pascal Leroy, Damien Ernst, Pierre Geurts, Gilles Louppe, Jonathan
Pisane, Matthia Sabatelli
- Abstract要約: 本稿では,マルチエージェント強化学習問題に取り組むための4つのアルゴリズムを提案する。
すべてのアルゴリズムは、Deep Quality-Valueアルゴリズムファミリに基づいている。
QVMix と QVMix-Max をよく知られた MARL 技術と比較した場合の競合結果を示す。
- 参考スコア(独自算出の注目度): 10.334745043233974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces four new algorithms that can be used for tackling
multi-agent reinforcement learning (MARL) problems occurring in cooperative
settings. All algorithms are based on the Deep Quality-Value (DQV) family of
algorithms, a set of techniques that have proven to be successful when dealing
with single-agent reinforcement learning problems (SARL). The key idea of DQV
algorithms is to jointly learn an approximation of the state-value function
$V$, alongside an approximation of the state-action value function $Q$. We
follow this principle and generalise these algorithms by introducing two fully
decentralised MARL algorithms (IQV and IQV-Max) and two algorithms that are
based on the centralised training with decentralised execution training
paradigm (QVMix and QVMix-Max). We compare our algorithms with state-of-the-art
MARL techniques on the popular StarCraft Multi-Agent Challenge (SMAC)
environment. We show competitive results when QVMix and QVMix-Max are compared
to well-known MARL techniques such as QMIX and MAVEN and show that QVMix can
even outperform them on some of the tested environments, being the algorithm
which performs best overall. We hypothesise that this is due to the fact that
QVMix suffers less from the overestimation bias of the $Q$ function.
- Abstract(参考訳): 本稿では,協調環境で発生するマルチエージェント強化学習(MARL)問題に対処するために,新しい4つのアルゴリズムを提案する。
すべてのアルゴリズムは、シングルエージェント強化学習問題(SARL)を扱う際に成功した一連の手法であるDeep Quality-Value (DQV)ファミリに基づいている。
DQVアルゴリズムの鍵となる考え方は、状態値関数 $V$ の近似と状態値関数 $Q$ の近似を共同で学習することである。
この原則に従い、分散実行訓練パラダイム(QVMixとQVMix-Max)を用いた集中学習に基づく2つの完全分散MARLアルゴリズム(IQVとIQV-Max)と2つのアルゴリズムを導入することにより、これらのアルゴリズムを一般化する。
我々は,このアルゴリズムを,スタークラフトマルチエージェントチャレンジ(SMAC)環境における最先端のMARL技術と比較した。
QVMix と QVMix-Max を QMIX や MAVEN といった有名な MARL 技術と比較すると,QVMix がテスト環境のいくつかよりも優れていることを示す。
これは、QVMixが$Q$関数の過大評価バイアスに苦しむことによるものであると仮定する。
関連論文リスト
- Stochastic Bilevel Distributed Optimization over a Network [55.56019538079826]
勾配追跡通信機構と2つの異なる勾配推定器に基づく分散二段階最適化アルゴリズムを開発した。
我々は、$O(frac1epsilon2 (1-lambda)2)$と$O(frac1epsilon3/2 (1-lambda)2)$収束率をそれぞれ達成できることを示します。
提案アルゴリズムを実用的な機械学習モデルに適用し,実験結果から本アルゴリズムの有効性が確認された。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Revisiting Some Common Practices in Cooperative Multi-Agent
Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。
対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。
本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文 参考訳(メタデータ) (2022-06-15T13:03:05Z) - Local Stochastic Bilevel Optimization with Momentum-Based Variance
Reduction [104.41634756395545]
具体的には、まず、決定論的勾配に基づくアルゴリズムであるFedBiOを提案する。
FedBiOの複雑性は$O(epsilon-1.5)$である。
本アルゴリズムは数値実験において,他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-03T16:40:22Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - V-Learning -- A Simple, Efficient, Decentralized Algorithm for
Multiagent RL [35.304241088947116]
V-ラーニング(V-learning)は、任意の反逆バンディットアルゴリズムをRLアルゴリズムに変換する、単エージェントRLアルゴリズムの新しいクラスである。
Q-ラーニングとは異なり、Q-値の代わりにV-値の推定だけを保持する。
論文 参考訳(メタデータ) (2021-10-27T16:25:55Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Hyperparameter Tricks in Multi-Agent Reinforcement Learning: An
Empirical Study [5.811502603310249]
我々は,最先端の協調型多エージェント深層強化学習アルゴリズムについて検討・比較を行った。
QMIXは、StarCraft Multi-Agent Challenge (SMAC)のすべてのハードおよび超ハードシナリオにおいて、異常に高い勝利率を達成することができ、最先端(SOTA)を達成することができる。
論文 参考訳(メタデータ) (2021-02-06T02:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。