論文の概要: POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.08036v2
- Date: Wed, 15 May 2024 05:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 12:36:16.339569
- Title: POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): POWQMIX:協調的マルチエージェント強化学習のための潜在的に最適な関節行動認識を用いた重み付き値分解
- Authors: Chang Huang, Junqiao Zhao, Shatong Zhu, Hongtu Zhou, Chen Ye, Tiantian Feng, Changjun Jiang,
- Abstract要約: 値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
そこで我々はQMIXアルゴリズムを提案する。
行列ゲーム,捕食者-プレイ,およびStarCraft II マルチエージェントチャレンジ環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 17.644279061872442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value function factorization methods are commonly used in cooperative multi-agent reinforcement learning, with QMIX receiving significant attention. Many QMIX-based methods introduce monotonicity constraints between the joint action value and individual action values to achieve decentralized execution. However, such constraints limit the representation capacity of value factorization, restricting the joint action values it can represent and hindering the learning of the optimal policy. To address this challenge, we propose the Potentially Optimal joint actions Weighted QMIX (POWQMIX) algorithm, which recognizes the potentially optimal joint actions and assigns higher weights to the corresponding losses of these joint actions during training. We theoretically prove that with such a weighted training approach the optimal policy is guaranteed to be recovered. Experiments in matrix games, predator-prey, and StarCraft II Multi-Agent Challenge environments demonstrate that our algorithm outperforms the state-of-the-art value-based multi-agent reinforcement learning methods.
- Abstract(参考訳): 値関数分解法は協調型マルチエージェント強化学習において一般的に用いられ,QMIXは注目されている。
多くのQMIXベースの手法は、分散実行を実現するために、ジョイントアクション値と個別アクション値の間の単調性制約を導入する。
しかし、そのような制約は値分解の表現能力を制限し、それが表現できる共同アクション値を制限するとともに、最適なポリシーの学習を妨げる。
この課題に対処するために、潜在的に最適な関節動作を認識し、トレーニング中のこれらの関節動作の損失により高い重みを割り当てる、潜在的に最適な関節動作重み付きQMIX(POWQMIX)アルゴリズムを提案する。
このような重み付けされたトレーニングアプローチにより、最適ポリシーが回復されることを理論的に証明する。
行列ゲーム,捕食者-プレイ,およびStarCraft II マルチエージェントチャレンジ環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
関連論文リスト
- Mitigating Relative Over-Generalization in Multi-Agent Reinforcement Learning [11.988291170853806]
我々は,潜在的次の状態のサンプリングと評価を反復的に行うMaxMax Q-Learning (MMQ)を紹介した。
このアプローチは理想的な状態遷移の近似を洗練させ、協調エージェントの最適結合ポリシーとより密接に一致させる。
以上の結果から,MMQは既存のベースラインよりも優れており,コンバージェンスと試料効率が向上していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-17T15:00:39Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。