論文の概要: QR-MIX: Distributional Value Function Factorisation for Cooperative
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2009.04197v5
- Date: Tue, 23 Feb 2021 12:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 09:03:25.334488
- Title: QR-MIX: Distributional Value Function Factorisation for Cooperative
Multi-Agent Reinforcement Learning
- Title(参考訳): QR-MIX:協調型マルチエージェント強化学習のための分布値関数係数化
- Authors: Jian Hu, Seth Austin Harding, Haibin Wu, Siyue Hu, Shih-wei Liao
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)では、エージェントは環境を局所的に独立して観察し、相互作用する。
局所的な観測とランダムサンプリングにより、報酬や観察のランダム性は、長期的なリターンのランダム性をもたらす。
価値分解ネットワーク(VDN)やQMIXといった既存の手法は、乱数性の情報を含まないスカラーとして長期的なリターンの値を推定する。
- 参考スコア(独自算出の注目度): 5.564793925574797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Cooperative Multi-Agent Reinforcement Learning (MARL) and under the
setting of Centralized Training with Decentralized Execution (CTDE), agents
observe and interact with their environment locally and independently. With
local observation and random sampling, the randomness in rewards and
observations leads to randomness in long-term returns. Existing methods such as
Value Decomposition Network (VDN) and QMIX estimate the value of long-term
returns as a scalar that does not contain the information of randomness. Our
proposed model QR-MIX introduces quantile regression, modeling joint
state-action values as a distribution, combining QMIX with Implicit Quantile
Network (IQN). However, the monotonicity in QMIX limits the expression of joint
state-action value distribution and may lead to incorrect estimation results in
non-monotonic cases. Therefore, we proposed a flexible loss function to
approximate the monotonicity found in QMIX. Our model is not only more tolerant
of the randomness of returns, but also more tolerant of the randomness of
monotonic constraints. The experimental results demonstrate that QR-MIX
outperforms the previous state-of-the-art method QMIX in the StarCraft
Multi-Agent Challenge (SMAC) environment.
- Abstract(参考訳): MARL(Cooperative Multi-Agent Reinforcement Learning)やCTDE(Centralized Training with Decentralized Execution)の設定の下では、エージェントはローカルかつ独立して環境を観察し、相互作用する。
局所的な観察とランダムなサンプリングでは、報酬と観察のランダム性は長期的なリターンのランダム性につながる。
価値分解ネットワーク(VDN)やQMIXといった既存の手法は、乱数性の情報を含まないスカラーとして長期的なリターンの値を推定する。
提案モデルであるQR-MIXは、QMIXとImplicit Quantile Network(IQN)を組み合わせた量子回帰を導入し、結合状態-動作値を分布としてモデル化する。
しかし、QMIXの単調性は結合状態-作用値分布の表現を制限し、非単調な場合の誤った推定結果につながる可能性がある。
そこで本研究では,QMIXの単調性に近似するフレキシブルな損失関数を提案する。
我々のモデルはリターンのランダム性に寛容であるだけでなく、単調な制約のランダム性にも寛容である。
実験の結果, QR-MIXはStarCraft Multi-Agent Challenge (SMAC)環境において, 従来の最先端QMIXよりも優れていた。
関連論文リスト
- Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - Gaussian Mixture Solvers for Diffusion Models [84.83349474361204]
本稿では,拡散モデルのためのGMSと呼ばれる,SDEに基づく新しい解法について紹介する。
画像生成およびストロークベース合成におけるサンプル品質の観点から,SDEに基づく多くの解法よりも優れる。
論文 参考訳(メタデータ) (2023-11-02T02:05:38Z) - Importance sampling for stochastic quantum simulations [68.8204255655161]
我々は、係数に応じてハミルトン式からサンプリングしてランダムな積公式を構築するqDriftプロトコルを導入する。
サンプリング段階における個別のシミュレーションコストを考慮し、同じ精度でシミュレーションコストを削減可能であることを示す。
格子核効果場理論を用いて数値シミュレーションを行った結果, 実験結果が得られた。
論文 参考訳(メタデータ) (2022-12-12T15:06:32Z) - Maximum Correntropy Value Decomposition for Multi-agent Deep
Reinforcemen Learning [4.743243072814404]
本稿では,最大コレントロピー基準(MCC)をコスト関数として導入し,報酬分布における最小値の影響を解消するために重量を動的に適応させる。
OMGで行った予備実験では、MCVDはカーネル帯域幅選択の許容度が大きい非単調値分解問題に対処できることを示した。
論文 参考訳(メタデータ) (2022-08-07T08:06:21Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Deep Non-Crossing Quantiles through the Partial Derivative [0.6299766708197883]
量子回帰(Quantile Regression)は、単一の条件量子を近似する方法を提供する。
QRロス関数の最小化は、非交差量子化を保証しない。
任意の数の量子を予測するための汎用的なディープラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-30T15:35:21Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。