論文の概要: Masked Pretraining for Multi-Agent Decision Making
- arxiv url: http://arxiv.org/abs/2310.11846v1
- Date: Wed, 18 Oct 2023 09:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:08:55.709781
- Title: Masked Pretraining for Multi-Agent Decision Making
- Title(参考訳): マルチエージェント意思決定のためのマスクプリトレーニング
- Authors: Jie Liu, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang, Yu Liu,
Wanli Ouyang
- Abstract要約: 我々はtextbfMulti-textbfagent decision making (MaskMA) のためのtextbfMasked事前学習フレームワークを提案する。
MaskMAは、部分的な観察を伴う分散実行に適したマスクベースの協調学習戦略を採用している。
60の未確認テストマップに対して77.8%のゼロショット勝利率を、分散実行によって達成することができる。
- 参考スコア(独自算出の注目度): 56.00558959816801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a single generalist agent with zero-shot capability has recently
sparked significant advancements in decision-making. However, extending this
capability to multi-agent scenarios presents challenges. Most current works
struggle with zero-shot capabilities, due to two challenges particular to the
multi-agent settings: a mismatch between centralized pretraining and
decentralized execution, and varying agent numbers and action spaces, making it
difficult to create generalizable representations across diverse downstream
tasks. To overcome these challenges, we propose a \textbf{Mask}ed pretraining
framework for \textbf{M}ulti-\textbf{a}gent decision making (MaskMA). This
model, based on transformer architecture, employs a mask-based collaborative
learning strategy suited for decentralized execution with partial observation.
Moreover, MaskMA integrates a generalizable action representation by dividing
the action space into actions toward self-information and actions related to
other entities. This flexibility allows MaskMA to tackle tasks with varying
agent numbers and thus different action spaces. Extensive experiments in SMAC
reveal MaskMA, with a single model pretrained on 11 training maps, can achieve
an impressive 77.8% zero-shot win rate on 60 unseen test maps by decentralized
execution, while also performing effectively on other types of downstream tasks
(\textit{e.g.,} varied policies collaboration and ad hoc team play).
- Abstract(参考訳): ゼロショット機能を持つ単一ジェネラリストエージェントの構築は、最近、意思決定において大きな進歩をもたらした。
しかし、この機能をマルチエージェントシナリオに拡張することは課題を提示する。
集中型事前学習と分散実行のミスマッチ、エージェント番号とアクションスペースのばらつきなど、マルチエージェント設定に特有の2つの課題のため、現在の作業ではゼロショット機能に苦労している。
これらの課題を克服するため、我々は \textbf{M}ulti-\textbf{a}gent decision making (MaskMA) のための \textbf{Mask}ed pretraining framework を提案する。
このモデルはトランスフォーマーアーキテクチャに基づいており、部分的観察を伴う分散実行に適したマスクベースの協調学習戦略を採用している。
さらに、MaskMAは、アクション空間を、他のエンティティに関連する自己情報やアクションに向けてのアクションに分割することで、一般化可能なアクション表現を統合する。
この柔軟性により、MaskMAは様々なエージェント番号と異なるアクション空間でタスクに取り組むことができる。
SMACの大規模な実験により、MaskMAは11のトレーニングマップに事前訓練された1つのモデルで、60の見えないテストマップ上で、非集中的な実行によって77.8%のゼロショットの勝利率を達成すると同時に、他のダウンストリームタスクでも効果的に機能する(例えば、様々なポリシーコラボレーションとアドホックチームプレイ)。
関連論文リスト
- Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。
従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。
要件を満たすために統一行動空間(UAS)を導入する。
論文 参考訳(メタデータ) (2024-08-14T09:15:11Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Multi-agent Continual Coordination via Progressive Task
Contextualization [5.31057635825112]
本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-07T15:04:56Z) - CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action
Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。
シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文 参考訳(メタデータ) (2022-11-28T23:20:47Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Transformer-based Value Function Decomposition for Cooperative
Multi-agent Reinforcement Learning in StarCraft [1.160208922584163]
StarCraft II Multi-Agent Challenge (SMAC)は、協調型マルチエージェント強化学習(MARL)のベンチマーク問題である。
本稿では,トランスミクス(TransMix)というトランスアーキテクチャを導入する。
論文 参考訳(メタデータ) (2022-08-15T16:13:16Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Multi-Task Adversarial Attack [3.412750324146571]
MTA(Multi-Task adversarial Attack)は、複数のタスクの敵例を効率的に作成できる統合されたフレームワークである。
MTAは、全てのタスクのための共有エンコーダと複数のタスク固有のデコーダからなる逆転摂動のジェネレータを使用する。
共有エンコーダのおかげで、MTAはストレージコストを削減し、複数のタスクを同時に攻撃する際の推論を高速化する。
論文 参考訳(メタデータ) (2020-11-19T13:56:58Z) - A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied
Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。
既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。
既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。
SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文 参考訳(メタデータ) (2020-07-09T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。