論文の概要: Multi-agent Continual Coordination via Progressive Task
Contextualization
- arxiv url: http://arxiv.org/abs/2305.13937v1
- Date: Sun, 7 May 2023 15:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-28 05:00:15.765863
- Title: Multi-agent Continual Coordination via Progressive Task
Contextualization
- Title(参考訳): プログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネーション
- Authors: Lei Yuan, Lihe Li, Ziqian Zhang, Fuxiang Zhang, Cong Guan, Yang Yu
- Abstract要約: 本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 5.31057635825112
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cooperative Multi-agent Reinforcement Learning (MARL) has attracted
significant attention and played the potential for many real-world
applications. Previous arts mainly focus on facilitating the coordination
ability from different aspects (e.g., non-stationarity, credit assignment) in
single-task or multi-task scenarios, ignoring the stream of tasks that appear
in a continual manner. This ignorance makes the continual coordination an
unexplored territory, neither in problem formulation nor efficient algorithms
designed. Towards tackling the mentioned issue, this paper proposes an approach
Multi-Agent Continual Coordination via Progressive Task Contextualization,
dubbed MACPro. The key point lies in obtaining a factorized policy, using
shared feature extraction layers but separated independent task heads, each
specializing in a specific class of tasks. The task heads can be progressively
expanded based on the learned task contextualization. Moreover, to cater to the
popular CTDE paradigm in MARL, each agent learns to predict and adopt the most
relevant policy head based on local information in a decentralized manner. We
show in multiple multi-agent benchmarks that existing continual learning
methods fail, while MACPro is able to achieve close-to-optimal performance.
More results also disclose the effectiveness of MACPro from multiple aspects
like high generalization ability.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は,多くの実世界の応用において大きな注目を集めている。
それまでの芸術は、主に単一タスクやマルチタスクシナリオにおける異なる側面(例えば、非定常性、クレジット割り当て)から調整能力の促進に重点を置いており、連続的な方法で現れるタスクの流れを無視している。
この無知は、問題を定式化したり、効率的なアルゴリズムを設計したりすることなく、継続的な協調を未開拓領域にする。
本稿では,この課題に対処するために,MACProと呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
重要なのは、共有機能抽出レイヤを使用して、独立したタスクヘッドを分離して、それぞれが特定のタスクのクラスを専門とする、ファクタ化されたポリシを取得することだ。
学習したタスクコンテキスト化に基づいてタスクヘッドを段階的に拡張することができる。
さらに、MARLの一般的なCTDEパラダイムに対応するために、各エージェントは、ローカル情報に基づいて最も関連するポリシーヘッドを分散的に予測し、採用することを学ぶ。
マルチエージェントベンチマークでは,既存の連続学習手法が失敗し,macproは最適に近いパフォーマンスを達成できることを示す。
さらなる結果は、高一般化能力のような複数の側面からMACProの有効性も明らかにしている。
関連論文リスト
- Generalising Multi-Agent Cooperation through Task-Agnostic Communication [7.380444448047908]
協調型マルチロボット問題におけるMARL(Multi-agent reinforcement learning)の既存のコミュニケーション手法はほとんどタスク固有であり、各タスクごとに新しいコミュニケーション戦略を訓練する。
与えられた環境内の任意のタスクに適用可能な通信戦略を導入することで、この非効率性に対処する。
我々の目的は、可変数のエージェント観測から固定サイズの潜在マルコフ状態を学ぶことである。
本手法は,コミュニケーション戦略を微調整することなく,新しいタスクへのシームレスな適応が可能であり,トレーニング中よりも多くのエージェントへのスケーリングを優雅にサポートし,環境におけるアウト・オブ・ディストリビューションイベントを検出する。
論文 参考訳(メタデータ) (2024-03-11T14:20:13Z) - MmAP : Multi-modal Alignment Prompt for Cross-domain Multi-task Learning [29.88567810099265]
マルチタスク学習は複数の相関タスクを同時に訓練するように設計されている。
この課題に対処するために、デコーダフリーの視覚言語モデルCLIPを統合する。
CLIPのためのマルチモーダルアライメント・プロンプト(MmAP)を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:33:02Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。