論文の概要: Transformer-based Value Function Decomposition for Cooperative
Multi-agent Reinforcement Learning in StarCraft
- arxiv url: http://arxiv.org/abs/2208.07298v1
- Date: Mon, 15 Aug 2022 16:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 15:02:39.372715
- Title: Transformer-based Value Function Decomposition for Cooperative
Multi-agent Reinforcement Learning in StarCraft
- Title(参考訳): スタークラフトにおける協調型マルチエージェント強化学習のためのトランスフォーマティブ値関数分解
- Authors: Muhammad Junaid Khan, Syed Hammad Ahmed, Gita Sukthankar
- Abstract要約: StarCraft II Multi-Agent Challenge (SMAC)は、協調型マルチエージェント強化学習(MARL)のベンチマーク問題である。
本稿では,トランスミクス(TransMix)というトランスアーキテクチャを導入する。
- 参考スコア(独自算出の注目度): 1.160208922584163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The StarCraft II Multi-Agent Challenge (SMAC) was created to be a challenging
benchmark problem for cooperative multi-agent reinforcement learning (MARL).
SMAC focuses exclusively on the problem of StarCraft micromanagement and
assumes that each unit is controlled individually by a learning agent that acts
independently and only possesses local information; centralized training is
assumed to occur with decentralized execution (CTDE). To perform well in SMAC,
MARL algorithms must handle the dual problems of multi-agent credit assignment
and joint action evaluation.
This paper introduces a new architecture TransMix, a transformer-based joint
action-value mixing network which we show to be efficient and scalable as
compared to the other state-of-the-art cooperative MARL solutions. TransMix
leverages the ability of transformers to learn a richer mixing function for
combining the agents' individual value functions. It achieves comparable
performance to previous work on easy SMAC scenarios and outperforms other
techniques on hard scenarios, as well as scenarios that are corrupted with
Gaussian noise to simulate fog of war.
- Abstract(参考訳): StarCraft II Multi-Agent Challenge (SMAC)は、協調型マルチエージェント強化学習(MARL)のための挑戦的なベンチマーク問題である。
SMACは、StarCraftのマイクロマネジメントの問題に特化しており、各ユニットは独立して動作し、ローカル情報しか持たない学習エージェントによって個別に制御されていると仮定している。
SMACでうまく機能するには、MARLアルゴリズムはマルチエージェントクレジット代入と共同動作評価の二重問題を扱う必要がある。
本稿では,新しいアーキテクチャであるtransmixについて紹介する。transmixはトランスフォーマーベースの共同動作値混合ネットワークであり,最先端のmarlソリューションに比べて効率的かつスケーラブルであることを示す。
TransMixは、エージェントの個々の値関数を組み合わせるためによりリッチな混合関数を学習するトランスフォーマーの能力を活用する。
従来のSMACシナリオに匹敵するパフォーマンスを実現し、ハードシナリオで他のテクニックを上回り、ガウスノイズで劣化したシナリオは戦争の霧をシミュレートする。
関連論文リスト
- Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots [1.1049608786515839]
本稿では,CATMiP(Cooperative and Asynchronous Transformer-based Mission Planning)フレームワークを提案する。
CatMiPはマルチエージェント強化学習を使用して、エージェントを異質なセンシング、モーション、アクティベーション能力で調整する。
ミッションの複雑さやコミュニケーションの制約に容易に適応し、さまざまな環境サイズやチーム構成にスケールします。
論文 参考訳(メタデータ) (2024-10-08T21:14:09Z) - MAIDCRL: Semi-centralized Multi-Agent Influence Dense-CNN Reinforcement
Learning [0.7366405857677227]
エージェント・インフルエンス・マップ(AIM)によって強化された半集中型Dense Reinforcement Learningアルゴリズムを用いて,StarCraft Multi-Agent Challenge (SMAC) シナリオにおける効果的なマルチエージェント制御を学習する。
その結果,CNN対応MAIDCRLは学習性能を大幅に向上し,既存のMAIDRLと比較して学習速度が向上した。
論文 参考訳(メタデータ) (2024-02-12T18:53:20Z) - MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based
Collaborative Learning [56.00558959816801]
マルチエージェント意思決定(MaskMA)のためのMaskベースの協調学習フレームワークを提案する。
MaskMAは、非集中的な実行によって60の未確認テストマップ上で、77.8%の平均ゼロショット勝利率を達成できることを示す。
論文 参考訳(メタデータ) (2023-10-18T09:53:27Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。