論文の概要: Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.11883v1
- Date: Mon, 22 Mar 2021 14:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:12:22.895072
- Title: Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning
- Title(参考訳): 正則化によるsoftmax:マルチエージェント強化学習における値推定の改善
- Authors: Ling Pan, Tabish Rashid, Bei Peng, Longbo Huang, Shimon Whiteson
- Abstract要約: q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
- 参考スコア(独自算出の注目度): 72.28520951105207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overestimation in $Q$-learning is an important problem that has been
extensively studied in single-agent reinforcement learning, but has received
comparatively little attention in the multi-agent setting. In this work, we
empirically demonstrate that QMIX, a popular $Q$-learning algorithm for
cooperative multi-agent reinforcement learning (MARL), suffers from a
particularly severe overestimation problem which is not mitigated by existing
approaches. We rectify this by designing a novel regularization-based update
scheme that penalizes large joint action-values deviating from a baseline and
demonstrate its effectiveness in stabilizing learning. We additionally propose
to employ a softmax operator, which we efficiently approximate in the
multi-agent setting, to further reduce the potential overestimation bias. We
demonstrate that our Softmax with Regularization (SR) method, when applied to
QMIX, accomplishes its goal of avoiding severe overestimation and significantly
improves performance in a variety of cooperative multi-agent tasks. To
demonstrate the versatility of our method, we apply it to other $Q$-learning
based MARL algorithms and achieve similar performance gains. Finally, we show
that our method provides a consistent performance improvement on a set of
challenging StarCraft II micromanagement tasks.
- Abstract(参考訳): q$-learningの過大評価は、シングルエージェント強化学習で広く研究されてきた重要な問題であるが、マルチエージェント環境では比較的注目されていない。
本研究では、協調型マルチエージェント強化学習(MARL)のためのQMIXアルゴリズムが、既存のアプローチでは緩和されない、特に過大評価の問題に悩まされていることを実証的に示す。
我々は,ベースラインから逸脱する大規模共同動作値のペナライズを行う新しい正規化ベースの更新スキームを設計し,その学習の安定化効果を示す。
さらに,マルチエージェント設定で効率的に近似するソフトマックス演算子を用いることにより,潜在的な推定バイアスを更に低減することを提案する。
QMIXに適用したSoftmax with Regularization (SR)法は,過度な過大評価を回避するという目標を達成し,様々な協調型マルチエージェントタスクの性能を著しく向上させることを実証する。
本手法の汎用性を示すために,他の$q$学習に基づくmarlアルゴリズムに適用し,同様の性能向上を実現する。
最後に,本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
本稿では, 潜在的に最適な関節動作を認識し, トレーニング中の損失により高い重みを割り当てるPOWQmix(Possally Optimal Joint Actions Weighted Qmix)アルゴリズムを提案する。
行列ゲーム,難易度の高い捕食者前処理,およびStarCraft II Multi-Agent Challenge環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。