Fugu-MT 論文翻訳(概要): Masked Pretraining for Multi-Agent Decision Making

論文の概要: Masked Pretraining for Multi-Agent Decision Making

arxiv url: http://arxiv.org/abs/2310.11846v1
Date: Wed, 18 Oct 2023 09:53:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 17:08:55.709781
Title: Masked Pretraining for Multi-Agent Decision Making
Title（参考訳）: マルチエージェント意思決定のためのマスクプリトレーニング
Authors: Jie Liu, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang, Yu Liu, Wanli Ouyang
Abstract要約: 我々はtextbfMulti-textbfagent decision making (MaskMA) のためのtextbfMasked事前学習フレームワークを提案する。 MaskMAは、部分的な観察を伴う分散実行に適したマスクベースの協調学習戦略を採用している。 60の未確認テストマップに対して77.8%のゼロショット勝利率を、分散実行によって達成することができる。
参考スコア（独自算出の注目度）: 56.00558959816801
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building a single generalist agent with zero-shot capability has recently sparked significant advancements in decision-making. However, extending this capability to multi-agent scenarios presents challenges. Most current works struggle with zero-shot capabilities, due to two challenges particular to the multi-agent settings: a mismatch between centralized pretraining and decentralized execution, and varying agent numbers and action spaces, making it difficult to create generalizable representations across diverse downstream tasks. To overcome these challenges, we propose a \textbf{Mask}ed pretraining framework for \textbf{M}ulti-\textbf{a}gent decision making (MaskMA). This model, based on transformer architecture, employs a mask-based collaborative learning strategy suited for decentralized execution with partial observation. Moreover, MaskMA integrates a generalizable action representation by dividing the action space into actions toward self-information and actions related to other entities. This flexibility allows MaskMA to tackle tasks with varying agent numbers and thus different action spaces. Extensive experiments in SMAC reveal MaskMA, with a single model pretrained on 11 training maps, can achieve an impressive 77.8% zero-shot win rate on 60 unseen test maps by decentralized execution, while also performing effectively on other types of downstream tasks (\textit{e.g.,} varied policies collaboration and ad hoc team play).
Abstract（参考訳）: ゼロショット機能を持つ単一ジェネラリストエージェントの構築は、最近、意思決定において大きな進歩をもたらした。しかし、この機能をマルチエージェントシナリオに拡張することは課題を提示する。集中型事前学習と分散実行のミスマッチ、エージェント番号とアクションスペースのばらつきなど、マルチエージェント設定に特有の2つの課題のため、現在の作業ではゼロショット機能に苦労している。これらの課題を克服するため、我々は \textbf{M}ulti-\textbf{a}gent decision making (MaskMA) のための \textbf{Mask}ed pretraining framework を提案する。このモデルはトランスフォーマーアーキテクチャに基づいており、部分的観察を伴う分散実行に適したマスクベースの協調学習戦略を採用している。さらに、MaskMAは、アクション空間を、他のエンティティに関連する自己情報やアクションに向けてのアクションに分割することで、一般化可能なアクション表現を統合する。この柔軟性により、MaskMAは様々なエージェント番号と異なるアクション空間でタスクに取り組むことができる。 SMACの大規模な実験により、MaskMAは11のトレーニングマップに事前訓練された1つのモデルで、60の見えないテストマップ上で、非集中的な実行によって77.8%のゼロショットの勝利率を達成すると同時に、他のダウンストリームタスクでも効果的に機能する(例えば、様々なポリシーコラボレーションとアドホックチームプレイ)。

関連論文リスト

An Efficient Approach for Cooperative Multi-Agent Learning Problems [0.8287206589886881]
本稿では,複数のエージェントの同時動作をモデル化する政策学習のための中心的枠組みを提案する。本手法は,集中型手法に典型的なスケーラビリティ問題を克服する逐次的抽象化によるコーディネーション問題に対処する。実験の結果,提案手法は多様なマルチエージェント学習環境におけるエージェントのコーディネートに成功していることがわかった。
論文参考訳（メタデータ） (2025-04-07T09:03:35Z)
Improving Global Parameter-sharing in Physically Heterogeneous Multi-agent Reinforcement Learning with Unified Action Space [22.535906675532196]
マルチエージェントシステムでは、アクションセマンティクスはエージェントのアクションが他のエンティティに対して異なる影響を示す。従来のマルチエージェント強化学習(MARL)アルゴリズムは、多種多様な異種エージェントにまたがる大域的パラメータ共有を適用する。要件を満たすために統一行動空間(UAS)を導入する。
論文参考訳（メタデータ） (2024-08-14T09:15:11Z)
Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文参考訳（メタデータ） (2024-03-13T20:11:20Z)
Multi-agent Continual Coordination via Progressive Task Contextualization [5.31057635825112]
本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
論文参考訳（メタデータ） (2023-05-07T15:04:56Z)
CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文参考訳（メタデータ） (2022-11-28T23:20:47Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
Transformer-based Value Function Decomposition for Cooperative Multi-agent Reinforcement Learning in StarCraft [1.160208922584163]
StarCraft II Multi-Agent Challenge (SMAC)は、協調型マルチエージェント強化学習(MARL)のベンチマーク問題である。本稿では,トランスミクス(TransMix)というトランスアーキテクチャを導入する。
論文参考訳（メタデータ） (2022-08-15T16:13:16Z)
Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文参考訳（メタデータ） (2022-05-27T02:21:04Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)
Multi-Task Adversarial Attack [3.412750324146571]
MTA(Multi-Task adversarial Attack)は、複数のタスクの敵例を効率的に作成できる統合されたフレームワークである。 MTAは、全てのタスクのための共有エンコーダと複数のタスク固有のデコーダからなる逆転摂動のジェネレータを使用する。共有エンコーダのおかげで、MTAはストレージコストを削減し、複数のタスクを同時に攻撃する際の推論を高速化する。
論文参考訳（メタデータ） (2020-11-19T13:56:58Z)
A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。 SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文参考訳（メタデータ） (2020-07-09T17:59:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。