論文の概要: Multi-agent Continual Coordination via Progressive Task
Contextualization
- arxiv url: http://arxiv.org/abs/2305.13937v1
- Date: Sun, 7 May 2023 15:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-28 05:00:15.765863
- Title: Multi-agent Continual Coordination via Progressive Task
Contextualization
- Title(参考訳): プログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネーション
- Authors: Lei Yuan, Lihe Li, Ziqian Zhang, Fuxiang Zhang, Cong Guan, Yang Yu
- Abstract要約: 本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 5.31057635825112
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cooperative Multi-agent Reinforcement Learning (MARL) has attracted
significant attention and played the potential for many real-world
applications. Previous arts mainly focus on facilitating the coordination
ability from different aspects (e.g., non-stationarity, credit assignment) in
single-task or multi-task scenarios, ignoring the stream of tasks that appear
in a continual manner. This ignorance makes the continual coordination an
unexplored territory, neither in problem formulation nor efficient algorithms
designed. Towards tackling the mentioned issue, this paper proposes an approach
Multi-Agent Continual Coordination via Progressive Task Contextualization,
dubbed MACPro. The key point lies in obtaining a factorized policy, using
shared feature extraction layers but separated independent task heads, each
specializing in a specific class of tasks. The task heads can be progressively
expanded based on the learned task contextualization. Moreover, to cater to the
popular CTDE paradigm in MARL, each agent learns to predict and adopt the most
relevant policy head based on local information in a decentralized manner. We
show in multiple multi-agent benchmarks that existing continual learning
methods fail, while MACPro is able to achieve close-to-optimal performance.
More results also disclose the effectiveness of MACPro from multiple aspects
like high generalization ability.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は,多くの実世界の応用において大きな注目を集めている。
それまでの芸術は、主に単一タスクやマルチタスクシナリオにおける異なる側面(例えば、非定常性、クレジット割り当て)から調整能力の促進に重点を置いており、連続的な方法で現れるタスクの流れを無視している。
この無知は、問題を定式化したり、効率的なアルゴリズムを設計したりすることなく、継続的な協調を未開拓領域にする。
本稿では,この課題に対処するために,MACProと呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
重要なのは、共有機能抽出レイヤを使用して、独立したタスクヘッドを分離して、それぞれが特定のタスクのクラスを専門とする、ファクタ化されたポリシを取得することだ。
学習したタスクコンテキスト化に基づいてタスクヘッドを段階的に拡張することができる。
さらに、MARLの一般的なCTDEパラダイムに対応するために、各エージェントは、ローカル情報に基づいて最も関連するポリシーヘッドを分散的に予測し、採用することを学ぶ。
マルチエージェントベンチマークでは,既存の連続学習手法が失敗し,macproは最適に近いパフォーマンスを達成できることを示す。
さらなる結果は、高一般化能力のような複数の側面からMACProの有効性も明らかにしている。
関連論文リスト
- Heterogeneous Graph Reinforcement Learning for Dependency-aware Multi-task Allocation in Spatial Crowdsourcing [33.915222518617085]
本稿では,依存性を考慮したマルチタスクアロケーション(DMA)の問題点を公式に検討する。
Heterogeneous Graph Reinforcement Learning-based Task Allocation (HGRL-TA)として知られる、それを解決するためのよく設計されたフレームワークを提供する。
実験結果は、提案されたHGRL-TAのDMA問題を解決する効果と一般性を示し、メタヒューリスティック法を用いて達成したよりも21.78%高い平均利益をもたらす。
論文 参考訳(メタデータ) (2024-10-20T17:00:45Z) - Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Variational Offline Multi-agent Skill Discovery [43.869625428099425]
本稿では,サブグループレベルの抽象化と時間レベルの抽象化を同時に取得し,マルチエージェントスキルを形成するための2つの新しい自動エンコーダ方式を提案する。
提案手法はオフラインのマルチタスクデータに適用可能であり,検出したサブグループスキルは再トレーニングすることなく,関連するタスク間で伝達可能である。
論文 参考訳(メタデータ) (2024-05-26T00:24:46Z) - MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。