論文の概要: MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based
Collaborative Learning
- arxiv url: http://arxiv.org/abs/2310.11846v2
- Date: Fri, 23 Feb 2024 02:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:59:11.544177
- Title: MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based
Collaborative Learning
- Title(参考訳): MaskMA: マスクに基づく協調学習によるゼロショットマルチエージェント意思決定を目指して
- Authors: Jie Liu, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang, Yu Liu,
Wanli Ouyang
- Abstract要約: マルチエージェント意思決定(MaskMA)のためのMaskベースの協調学習フレームワークを提案する。
MaskMAは、非集中的な実行によって60の未確認テストマップ上で、77.8%の平均ゼロショット勝利率を達成できることを示す。
- 参考スコア(独自算出の注目度): 56.00558959816801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a single generalist agent with strong zero-shot capability has
recently sparked significant advancements. However, extending this capability
to multi-agent decision making scenarios presents challenges. Most current
works struggle with zero-shot transfer, due to two challenges particular to the
multi-agent settings: (a) a mismatch between centralized training and
decentralized execution; and (b) difficulties in creating generalizable
representations across diverse tasks due to varying agent numbers and action
spaces. To overcome these challenges, we propose a Mask-Based collaborative
learning framework for Multi-Agent decision making (MaskMA). Firstly, we
propose to randomly mask part of the units and collaboratively learn the
policies of unmasked units to handle the mismatch. In addition, MaskMA
integrates a generalizable action representation by dividing the action space
into intrinsic actions solely related to the unit itself and interactive
actions involving interactions with other units. This flexibility allows MaskMA
to tackle tasks with varying agent numbers and thus different action spaces.
Extensive experiments in SMAC reveal MaskMA, with a single model trained on 11
training maps, can achieve an impressive 77.8% average zero-shot win rate on 60
unseen test maps by decentralized execution, while also performing effectively
on other types of downstream tasks (e.g., varied policies collaboration, ally
malfunction, and ad hoc team play).
- Abstract(参考訳): 強力なゼロショット能力を持つ単一のジェネラリストエージェントの構築は、最近大きな進歩をもたらした。
しかし、この機能をマルチエージェントな意思決定シナリオに拡張することは、課題となる。
現在のほとんどの作品は、マルチエージェント設定に関する2つの課題により、ゼロショット転送に苦労している。
(a)集中訓練と分散実行のミスマッチ
(b)エージェント数やアクション空間によって様々なタスクにまたがる汎用表現の作成が困難である。
これらの課題を克服するために,マルチエージェント意思決定(MaskMA)のためのMaskベースの協調学習フレームワークを提案する。
まず,ユニットの一部をランダムにマスキングし,そのミスマッチに対処するための非マスクユニットのポリシーを協調的に学習することを提案する。
さらに、MaskMAは、アクション空間を、ユニット自体にのみ関連する固有のアクションと、他のユニットとの相互作用を含む対話的なアクションに分割することで、一般化可能なアクション表現を統合する。
この柔軟性により、MaskMAは様々なエージェント番号と異なるアクション空間でタスクに取り組むことができる。
SMACの大規模な実験では、11のトレーニングマップで訓練された1つのモデルで、分散実行によって60の未確認テストマップ上で77.8%の平均ゼロショットの勝利率を達成すると同時に、他のダウンストリームタスク(例えば、様々なポリシーコラボレーション、アライアンス誤動作、アドホックチームプレイ)で効果的に実行することができる。
関連論文リスト
- Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。
要件を満たすために統一行動空間(UAS)を導入する。
論文 参考訳(メタデータ) (2024-08-14T09:15:11Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Multi-agent Continual Coordination via Progressive Task
Contextualization [5.31057635825112]
本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-07T15:04:56Z) - CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action
Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。
シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文 参考訳(メタデータ) (2022-11-28T23:20:47Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Transformer-based Value Function Decomposition for Cooperative
Multi-agent Reinforcement Learning in StarCraft [1.160208922584163]
StarCraft II Multi-Agent Challenge (SMAC)は、協調型マルチエージェント強化学習(MARL)のベンチマーク問題である。
本稿では,トランスミクス(TransMix)というトランスアーキテクチャを導入する。
論文 参考訳(メタデータ) (2022-08-15T16:13:16Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Multi-Task Adversarial Attack [3.412750324146571]
MTA(Multi-Task adversarial Attack)は、複数のタスクの敵例を効率的に作成できる統合されたフレームワークである。
MTAは、全てのタスクのための共有エンコーダと複数のタスク固有のデコーダからなる逆転摂動のジェネレータを使用する。
共有エンコーダのおかげで、MTAはストレージコストを削減し、複数のタスクを同時に攻撃する際の推論を高速化する。
論文 参考訳(メタデータ) (2020-11-19T13:56:58Z) - A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied
Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。
既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。
既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。
SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文 参考訳(メタデータ) (2020-07-09T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。