論文の概要: QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.12010v2
- Date: Tue, 6 Oct 2020 01:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:44:50.317533
- Title: QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): QTRAN++:協調型マルチエージェント強化学習のための値変換の改善
- Authors: Kyunghwan Son, Sungsoo Ahn, Roben Delos Reyes, Jinwoo Shin, Yung Yi
- Abstract要約: QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
- 参考スコア(独自算出の注目度): 70.382101956278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: QTRAN is a multi-agent reinforcement learning (MARL) algorithm capable of
learning the largest class of joint-action value functions up to date. However,
despite its strong theoretical guarantee, it has shown poor empirical
performance in complex environments, such as Starcraft Multi-Agent Challenge
(SMAC). In this paper, we identify the performance bottleneck of QTRAN and
propose a substantially improved version, coined QTRAN++. Our gains come from
(i) stabilizing the training objective of QTRAN, (ii) removing the strict role
separation between the action-value estimators of QTRAN, and (iii) introducing
a multi-head mixing network for value transformation. Through extensive
evaluation, we confirm that our diagnosis is correct, and QTRAN++ successfully
bridges the gap between empirical performance and theoretical guarantee. In
particular, QTRAN++ newly achieves state-of-the-art performance in the SMAC
environment. The code will be released.
- Abstract(参考訳): QTRANはマルチエージェント強化学習(MARL)アルゴリズムで、最大級の共同動作値関数を学習することができる。
しかし、理論上の強い保証にもかかわらず、Starcraft Multi-Agent Challenge (SMAC)のような複雑な環境での実証的な性能は低い。
本稿では,QTRANの性能ボトルネックを特定し,QTRAN++と命名されたバージョンを提案する。
私たちの利益は
(i)qtranの訓練目標の安定化
(ii)qtranのアクション値推定器間の厳密な役割分離の除去、及び
(iii)価値変換のためのマルチヘッド混合ネットワークの導入。
広範な評価を通じて,我々の診断が正しいことを確認し,qtran++は経験的性能と理論的保証のギャップを橋渡しすることに成功した。
特に、QTRAN++はSMAC環境で最先端のパフォーマンスを新たに達成している。
コードはリリースされます。
関連論文リスト
- Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Greedy based Value Representation for Optimal Coordination in
Multi-agent Reinforcement Learning [64.05646120624287]
LVDとMVDの結合Q値関数を導出する。
最適な整合性を確保するために、最適なノードは独自のSTNである必要がある。
本手法は,様々なベンチマーク実験において,最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-22T08:14:50Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Hyperparameter Tricks in Multi-Agent Reinforcement Learning: An
Empirical Study [5.811502603310249]
我々は,最先端の協調型多エージェント深層強化学習アルゴリズムについて検討・比較を行った。
QMIXは、StarCraft Multi-Agent Challenge (SMAC)のすべてのハードおよび超ハードシナリオにおいて、異常に高い勝利率を達成することができ、最先端(SOTA)を達成することができる。
論文 参考訳(メタデータ) (2021-02-06T02:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。