論文の概要: Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy
Regularization
- arxiv url: http://arxiv.org/abs/2202.04427v1
- Date: Wed, 9 Feb 2022 12:37:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 14:57:56.447200
- Title: Revisiting QMIX: Discriminative Credit Assignment by Gradient Entropy
Regularization
- Title(参考訳): revisiting qmix:gradient entropy regularizationによる識別的クレジット割り当て
- Authors: Jian Zhao, Yue Zhang, Xunhan Hu, Weixun Wang, Wengang Zhou, Jianye
Hao, Jiangcheng Zhu, Houqiang Li
- Abstract要約: 協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。
個々の報酬信号がない場合は、通常、異なるエージェントの貢献を識別するためにクレジット代入機構が導入される。
クレジット割当測定の新しい視点を提案し,QMIXがエージェントへのクレジット割当において限定的な差別性に悩まされていることを実証的に示す。
- 参考スコア(独自算出の注目度): 126.87359177547455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In cooperative multi-agent systems, agents jointly take actions and receive a
team reward instead of individual rewards. In the absence of individual reward
signals, credit assignment mechanisms are usually introduced to discriminate
the contributions of different agents so as to achieve effective cooperation.
Recently, the value decomposition paradigm has been widely adopted to realize
credit assignment, and QMIX has become the state-of-the-art solution. In this
paper, we revisit QMIX from two aspects. First, we propose a new perspective on
credit assignment measurement and empirically show that QMIX suffers limited
discriminability on the assignment of credits to agents. Second, we propose a
gradient entropy regularization with QMIX to realize a discriminative credit
assignment, thereby improving the overall performance. The experiments
demonstrate that our approach can comparatively improve learning efficiency and
achieve better performance.
- Abstract(参考訳): 協力的なマルチエージェントシステムでは、エージェントは共同で行動し、個々の報酬ではなくチーム報酬を受け取る。
個別の報酬信号がない場合、クレジット割り当て機構は、効果的な協力を達成するために、異なるエージェントの貢献を識別するために導入される。
近年、クレジット割り当てを実現するために価値分解パラダイムが広く採用され、qmixは最先端のソリューションとなっている。
本稿では2つの側面からQMIXを再考する。
まず、クレジット割当測定の新しい視点を提案し、QMIXがエージェントへのクレジット割当において限定的な差別性に苦しむことを示す。
第2に,qmixを用いた勾配エントロピー正規化法を提案する。
実験により,学習効率が比較的向上し,パフォーマンスが向上することを示した。
関連論文リスト
- Would I have gotten that reward? Long-term credit assignment by
counterfactual contribution analysis [50.926791529605396]
モデルベース信用代入アルゴリズムの新たなファミリーであるCOCOA(Counterfactual Contribution Analysis)を紹介する。
我々のアルゴリズムは、その後の報酬を得る際の行動の貢献度を測定することによって、正確な信用割当を実現する。
論文 参考訳(メタデータ) (2023-06-29T09:27:27Z) - AIIR-MIX: Multi-Agent Reinforcement Learning Meets Attention Individual
Intrinsic Reward Mixing Network [2.057898896648108]
協調型マルチエージェント強化学習(MARL)において、各エージェントの貢献を減らし、それに対応する報酬を割り当てることは重要な問題である。
従来の研究では、本質的な報酬関数を設計することで問題を解決しようとするが、本質的な報酬は単に要約による環境報酬と組み合わせられる。
本稿では,MARLにおける個別固有逆混合ネットワーク(AIIR-mix)を提案する。
論文 参考訳(メタデータ) (2023-02-19T10:25:25Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。