論文の概要: MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.11652v1
- Date: Tue, 22 Jun 2021 10:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:05:37.421831
- Title: MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): mmd-mix:協調型マルチエージェント強化学習のための最大平均偏差値関数分解法
- Authors: Zhiwei Xu, Dapeng Li, Yunpeng Bai, Guoliang Fan
- Abstract要約: MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 15.972363414919279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the real world, many tasks require multiple agents to cooperate with each
other under the condition of local observations. To solve such problems, many
multi-agent reinforcement learning methods based on Centralized Training with
Decentralized Execution have been proposed. One representative class of work is
value decomposition, which decomposes the global joint Q-value $Q_\text{jt}$
into individual Q-values $Q_a$ to guide individuals' behaviors, e.g. VDN
(Value-Decomposition Networks) and QMIX. However, these baselines often ignore
the randomness in the situation. We propose MMD-MIX, a method that combines
distributional reinforcement learning and value decomposition to alleviate the
above weaknesses. Besides, to improve data sampling efficiency, we were
inspired by REM (Random Ensemble Mixture) which is a robust RL algorithm to
explicitly introduce randomness into the MMD-MIX. The experiments demonstrate
that MMD-MIX outperforms prior baselines in the StarCraft Multi-Agent Challenge
(SMAC) environment.
- Abstract(参考訳): 現実の世界では、多くのタスクは、複数のエージェントがローカルな観察条件下で互いに協力する必要がある。
このような問題を解決するために,分散訓練による多エージェント強化学習法が多数提案されている。
これは大域的な合同 Q-値 $Q_\text{jt}$ を個々の Q-値 $Q_a$ に分解して個人の行動を導く。
VDN(Value-Decomposition Networks)とQMIX。
しかし、これらの基準はしばしば状況のランダム性を無視している。
本研究では,分布強化学習と値分解を組み合わせたmmd-mixを提案する。
また,データサンプリング効率を向上させるために,MDD-MIXにランダム性を明示的に導入するロバストなRLアルゴリズムであるREM(Random Ensemble Mixture)に着想を得た。
実験の結果,MDD-MIXはStarCraft Multi-Agent Challenge (SMAC)環境において,以前のベースラインよりも優れていた。
関連論文リスト
- Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Value Function Factorisation with Hypergraph Convolution for Cooperative
Multi-agent Reinforcement Learning [32.768661516953344]
本稿では,ハイパーグラフ畳み込みと値分解を組み合わせた手法を提案する。
アクション値を信号として扱うことで、HGCN-Mixは、自己学習ハイパーグラフを通じて、これらの信号間の関係を探究することを目指している。
実験結果から,HGCN-MixはStarCraft II Multi-agent Challenge (SMAC)ベンチマークにおいて,最先端技術と一致するか,あるいは超えていることがわかった。
論文 参考訳(メタデータ) (2021-12-09T08:40:38Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - QR-MIX: Distributional Value Function Factorisation for Cooperative
Multi-Agent Reinforcement Learning [5.564793925574797]
MARL(Multi-Agent Reinforcement Learning)では、エージェントは環境を局所的に独立して観察し、相互作用する。
局所的な観測とランダムサンプリングにより、報酬や観察のランダム性は、長期的なリターンのランダム性をもたらす。
価値分解ネットワーク(VDN)やQMIXといった既存の手法は、乱数性の情報を含まないスカラーとして長期的なリターンの値を推定する。
論文 参考訳(メタデータ) (2020-09-09T10:28:44Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。