論文の概要: DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.10134v1
- Date: Mon, 21 Feb 2022 11:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:54:49.374850
- Title: DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning
- Title(参考訳): DQMIX:マルチエージェント強化学習における分布的視点
- Authors: Jian Zhao, Mingyu Yang, Xunhan Hu, Wengang Zhou, Houqiang Li
- Abstract要約: 協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
- 参考スコア(独自算出の注目度): 122.47938710284784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cooperative multi-agent tasks, a team of agents jointly interact with an
environment by taking actions, receiving a team reward and observing the next
state. During the interactions, the uncertainty of environment and reward will
inevitably induce stochasticity in the long-term returns and the randomness can
be exacerbated with the increasing number of agents. However, most of the
existing value-based multi-agent reinforcement learning (MARL) methods only
model the expectations of individual Q-values and global Q-value, ignoring such
randomness. Compared to the expectations of the long-term returns, it is more
preferable to directly model the stochasticity by estimating the returns
through distributions. With this motivation, this work proposes DQMIX, a novel
value-based MARL method, from a distributional perspective. Specifically, we
model each individual Q-value with a categorical distribution. To integrate
these individual Q-value distributions into the global Q-value distribution, we
design a distribution mixing network, based on five basic operations on the
distribution. We further prove that DQMIX satisfies the
\emph{Distributional-Individual-Global-Max} (DIGM) principle with respect to
the expectation of distribution, which guarantees the consistency between joint
and individual greedy action selections in the global Q-value and individual
Q-values. To validate DQMIX, we demonstrate its ability to factorize a matrix
game with stochastic rewards. Furthermore, the experimental results on a
challenging set of StarCraft II micromanagement tasks show that DQMIX
consistently outperforms the value-based multi-agent reinforcement learning
baselines.
- Abstract(参考訳): 協調的なマルチエージェントタスクでは、エージェントのチームがアクションを取り、チーム報酬を受け取り、次の状態を観察し、環境と共同で対話する。
相互作用の間、環境と報酬の不確実性は必然的に長期的なリターンの確率性を誘導し、エージェントの増加とともにランダム性は悪化する。
しかし、既存の値に基づくマルチエージェント強化学習(MARL)手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化し、そのようなランダム性を無視している。
長期リターンの期待に比べ、分布によるリターンを推定することで確率性を直接モデル化することが好ましい。
このモチベーションにより,分布的観点から新しい価値に基づくmarl法であるdqmixを提案する。
具体的には,各Q値のカテゴリ分布をモデル化する。
これら個別のQ値分布をグローバルなQ値分布に統合するために、分布に関する5つの基本演算に基づく分散混合ネットワークを設計する。
さらに、DQMIXは、グローバルQ値と個別Q値の結合と個別の欲求行動選択の整合性を保証する分布の期待に関して、 \emph{Distributional-Individual-Global-Max} (DIGM) の原理を満たすことを証明している。
DQMIXを検証するために,確率的報酬で行列ゲームを分解する能力を示す。
さらに、StarCraft IIマイクロマネジメントタスクの挑戦的なセットの実験結果から、DQMIXは価値に基づくマルチエージェント強化学習ベースラインを一貫して上回っていることが示された。
関連論文リスト
- Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - QR-MIX: Distributional Value Function Factorisation for Cooperative
Multi-Agent Reinforcement Learning [5.564793925574797]
MARL(Multi-Agent Reinforcement Learning)では、エージェントは環境を局所的に独立して観察し、相互作用する。
局所的な観測とランダムサンプリングにより、報酬や観察のランダム性は、長期的なリターンのランダム性をもたらす。
価値分解ネットワーク(VDN)やQMIXといった既存の手法は、乱数性の情報を含まないスカラーとして長期的なリターンの値を推定する。
論文 参考訳(メタデータ) (2020-09-09T10:28:44Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - Distributionally Robust Bayesian Quadrature Optimization [60.383252534861136]
確率分布が未知な分布の不確実性の下でBQOについて検討する。
標準的なBQOアプローチは、固定されたサンプル集合が与えられたときの真の期待目標のモンテカルロ推定を最大化する。
この目的のために,新しい後方サンプリングに基づくアルゴリズム,すなわち分布的に堅牢なBQO(DRBQO)を提案する。
論文 参考訳(メタデータ) (2020-01-19T12:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。