論文の概要: Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit
Assignment
- arxiv url: http://arxiv.org/abs/2106.00517v3
- Date: Thu, 3 Jun 2021 09:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 12:17:26.244686
- Title: Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit
Assignment
- Title(参考訳): レベル適応型クレジット割り当てを用いた協調型マルチエージェント転送学習
- Authors: Tianze Zhou, Fubiao Zhang, Kun Shao, Kai Li, Wenhan Huang, Jun Luo,
Weixun Wang, Yaodong Yang, Hangyu Mao, Bin Wang, Dong Li, Wulong Liu, Jianye
Hao
- Abstract要約: 本稿では,ロバストな協調知識伝達を実現するアーキテクチャを提案する。
エージェント調整を実現するために、レベル適応QTransformer (LA-QTransformer) という新しい混合ネットワークを用いる。
さらに,Transformer (PIT) を用いた新しいエージェントネットワークである Population Invariant を用いてコーディネート転送を実現する。
- 参考スコア(独自算出の注目度): 36.10728325049294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extending transfer learning to cooperative multi-agent reinforcement learning
(MARL) has recently received much attention. In contrast to the single-agent
setting, the coordination indispensable in cooperative MARL constrains each
agent's policy. However, existing transfer methods focus exclusively on agent
policy and ignores coordination knowledge. We propose a new architecture that
realizes robust coordination knowledge transfer through appropriate
decomposition of the overall coordination into several coordination patterns.
We use a novel mixing network named level-adaptive QTransformer
(LA-QTransformer) to realize agent coordination that considers credit
assignment, with appropriate coordination patterns for different agents
realized by a novel level-adaptive Transformer (LA-Transformer) dedicated to
the transfer of coordination knowledge. In addition, we use a novel agent
network named Population Invariant agent with Transformer (PIT) to realize the
coordination transfer in more varieties of scenarios. Extensive experiments in
StarCraft II micro-management show that LA-QTransformer together with PIT
achieves superior performance compared with state-of-the-art baselines.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)への移行学習は近年注目されている。
単一エージェントの設定とは対照的に、協調的なMARLでは調整が不可欠である。
しかし,既存の転送手法はエージェントポリシーにのみ焦点をあて,協調知識を無視する。
本稿では,コーディネーション全体を複数の協調パターンに適切に分解することで,ロバストな協調知識の伝達を実現するアーキテクチャを提案する。
我々は、レベル適応型QTransformer(LA-QTransformer)と呼ばれる新しいミキシングネットワークを用いて、クレジット代入を考慮したエージェント調整を実現し、協調知識の伝達に特化した新しいレベル適応型QTransformer(LA-Transformer)によって実現された異なるエージェントに対する適切な調整パターンを実現する。
さらに,Population Invariant agent with Transformer (PIT) という新しいエージェントネットワークを用いて,多種多様なシナリオにおけるコーディネーション転送を実現する。
StarCraft IIの大規模なマイクロマネジメント実験により、LA-QTransformerとPITは最先端のベースラインに比べて優れた性能を発揮することが示された。
関連論文リスト
- Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots [1.1049608786515839]
本稿では,CATMiP(Cooperative and Asynchronous Transformer-based Mission Planning)フレームワークを提案する。
CatMiPはマルチエージェント強化学習を使用して、エージェントを異質なセンシング、モーション、アクティベーション能力で調整する。
ミッションの複雑さやコミュニケーションの制約に容易に適応し、さまざまな環境サイズやチーム構成にスケールします。
論文 参考訳(メタデータ) (2024-10-08T21:14:09Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Multi-Agent Coordination via Multi-Level Communication [29.388570369796586]
シークエンシャル・コミュニケーション(SeqComm)という新しいマルチレベル通信方式を提案する。
本稿では,新しいマルチレベル通信方式であるSeqCommを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:08:03Z) - Depthwise Convolution for Multi-Agent Communication with Enhanced
Mean-Field Approximation [9.854975702211165]
本稿では,MARL(Multi-agent RL)課題に取り組むための,局所的なコミュニケーション学習に基づく新しい手法を提案する。
まず,局所的な関係を効率的に抽出する深層的畳み込み機能を利用する新しい通信プロトコルを設計する。
第2に,エージェント相互作用の規模を減らすために,平均場近似を導入する。
論文 参考訳(メタデータ) (2022-03-06T07:42:43Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。