論文の概要: Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.10800v2
- Date: Thu, 22 Oct 2020 14:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:32:43.402731
- Title: Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning
- Title(参考訳): 重み付きQMIX:深層マルチエージェント強化学習のための単調値関数の分解
- Authors: Tabish Rashid, Gregory Farquhar, Bei Peng, Shimon Whiteson
- Abstract要約: 本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
- 参考スコア(独自算出の注目度): 66.94149388181343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: QMIX is a popular $Q$-learning algorithm for cooperative MARL in the
centralised training and decentralised execution paradigm. In order to enable
easy decentralisation, QMIX restricts the joint action $Q$-values it can
represent to be a monotonic mixing of each agent's utilities. However, this
restriction prevents it from representing value functions in which an agent's
ordering over its actions can depend on other agents' actions. To analyse this
representational limitation, we first formalise the objective QMIX optimises,
which allows us to view QMIX as an operator that first computes the
$Q$-learning targets and then projects them into the space representable by
QMIX. This projection returns a representable $Q$-value that minimises the
unweighted squared error across all joint actions. We show in particular that
this projection can fail to recover the optimal policy even with access to
$Q^*$, which primarily stems from the equal weighting placed on each joint
action. We rectify this by introducing a weighting into the projection, in
order to place more importance on the better joint actions. We propose two
weighting schemes and prove that they recover the correct maximal action for
any joint action $Q$-values, and therefore for $Q^*$ as well. Based on our
analysis and results in the tabular setting, we introduce two scalable versions
of our algorithm, Centrally-Weighted (CW) QMIX and Optimistically-Weighted (OW)
QMIX and demonstrate improved performance on both predator-prey and challenging
multi-agent StarCraft benchmark tasks.
- Abstract(参考訳): qmixは、集中トレーニングと分散実行パラダイムにおける協同marlのための一般的なq$学習アルゴリズムである。
分散化を容易にするために、QMIXは、各エージェントのユーティリティの単調混合であることを示す$Q$-値のジョイントアクションを制限する。
しかし、この制限は、エージェントのアクションに対する順序付けが他のエージェントのアクションに依存することができる値関数を表現するのを防ぐ。
この表現制限を解析するために、まず目的QMIXオプティミクスを定式化し、QMIXをまずQ$学習目標を計算し、次にQMIXで表現可能な空間に投影する演算子とみなすことができる。
このプロジェクションは表現可能な$q$-valueを返します。
特に、この投射は$q^*$にアクセスしても最適方針の回復に失敗し得ることが示され、これは主に各合同行動に置かれる等しい重み付けが原因である。
私たちは、より良い共同アクションをより重要視するために、投影に重み付けを導入することで、これを正します。
2つの重み付けスキームを提案し、それらが任意のジョイントアクション$Q$-値に対して正しい最大作用を回復することを証明する。
解析結果と表計算結果に基づいて,CW (Centrally-Weighted) QMIXとOW (Optimistically-Weighted) QMIXという2種類のスケーラブルなアルゴリズムを導入し,捕食者前処理とマルチエージェントのStarCraftベンチマークの両方の性能向上を実証した。
関連論文リスト
- Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization [5.54284350152423]
本稿では,最大エントロピーRLフレームワークに付加的な局所Q値学習手法を組み込むことにより,QMIXの強化を提案する。
我々のアプローチは、全てのアクションの正しい順序を維持するために、局所的なQ値の推定を制約する。
理論的には,本手法の単調改善と収束性を最適解に証明する。
論文 参考訳(メタデータ) (2024-06-20T01:55:08Z) - POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
本稿では, 潜在的に最適な関節動作を認識し, トレーニング中の損失により高い重みを割り当てるPOWQmix(Possally Optimal Joint Actions Weighted Qmix)アルゴリズムを提案する。
行列ゲーム,難易度の高い捕食者前処理,およびStarCraft II Multi-Agent Challenge環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - Maximum Correntropy Value Decomposition for Multi-agent Deep
Reinforcemen Learning [4.743243072814404]
本稿では,最大コレントロピー基準(MCC)をコスト関数として導入し,報酬分布における最小値の影響を解消するために重量を動的に適応させる。
OMGで行った予備実験では、MCVDはカーネル帯域幅選択の許容度が大きい非単調値分解問題に対処できることを示した。
論文 参考訳(メタデータ) (2022-08-07T08:06:21Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy
Regularization [126.87359177547455]
協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。
個々の報酬信号がない場合は、通常、異なるエージェントの貢献を識別するためにクレジット代入機構が導入される。
クレジット割当測定の新しい視点を提案し,QMIXがエージェントへのクレジット割当において限定的な差別性に悩まされていることを実証的に示す。
論文 参考訳(メタデータ) (2022-02-09T12:37:55Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。