論文の概要: Learning Generalizable Skills from Offline Multi-Task Data for Multi-Agent Cooperation
- arxiv url: http://arxiv.org/abs/2503.21200v1
- Date: Thu, 27 Mar 2025 06:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:51:08.012236
- Title: Learning Generalizable Skills from Offline Multi-Task Data for Multi-Agent Cooperation
- Title(参考訳): オフラインマルチタスクデータから多エージェント協調のための一般化可能なスキルの学習
- Authors: Sicong Liu, Yang Shu, Chenjuan Guo, Bin Yang,
- Abstract要約: HiSSD(Hierarchical and Separate Skill Discovery)は、スキル学習を通じて、一般化可能なオフラインマルチタスクMARLのための新しいアプローチである。
HiSSDは、共通性とタスク固有のスキルを共同で学習する階層的なフレームワークを活用している。
タスク固有のスキルは、各タスクの先行を表現し、タスク誘導されたきめ細かいアクション実行を達成する。
- 参考スコア(独自算出の注目度): 16.107745320103444
- License:
- Abstract: Learning cooperative multi-agent policy from offline multi-task data that can generalize to unseen tasks with varying numbers of agents and targets is an attractive problem in many scenarios. Although aggregating general behavior patterns among multiple tasks as skills to improve policy transfer is a promising approach, two primary challenges hinder the further advancement of skill learning in offline multi-task MARL. Firstly, extracting general cooperative behaviors from various action sequences as common skills lacks bringing cooperative temporal knowledge into them. Secondly, existing works only involve common skills and can not adaptively choose independent knowledge as task-specific skills in each task for fine-grained action execution. To tackle these challenges, we propose Hierarchical and Separate Skill Discovery (HiSSD), a novel approach for generalizable offline multi-task MARL through skill learning. HiSSD leverages a hierarchical framework that jointly learns common and task-specific skills. The common skills learn cooperative temporal knowledge and enable in-sample exploitation for offline multi-task MARL. The task-specific skills represent the priors of each task and achieve a task-guided fine-grained action execution. To verify the advancement of our method, we conduct experiments on multi-agent MuJoCo and SMAC benchmarks. After training the policy using HiSSD on offline multi-task data, the empirical results show that HiSSD assigns effective cooperative behaviors and obtains superior performance in unseen tasks.
- Abstract(参考訳): オフラインマルチタスクデータから協調的マルチエージェントポリシーを学習し、さまざまなエージェントやターゲットで見えないタスクを一般化することは、多くのシナリオにおいて魅力的な問題である。
複数のタスク間の一般的な行動パターンを、ポリシー伝達を改善するためのスキルとして集約することは、有望なアプローチであるが、オフラインマルチタスクMARLにおけるスキル学習のさらなる進歩を妨げる2つの主要な課題である。
第一に、様々な行動系列から一般的な協調行動の抽出には、協調的時間的知識が欠如している。
第二に、既存の作業は共通のスキルのみを伴い、タスク固有のスキルとして独立した知識を適応的に選択することはできない。
これらの課題に対処するために,階層的かつ分離的なスキル発見(HiSSD)を提案する。
HiSSDは、共通性とタスク固有のスキルを共同で学習する階層的なフレームワークを活用している。
共通スキルは協調的時間的知識を学習し、オフラインマルチタスクMARLのためのサンプル内利用を可能にする。
タスク固有のスキルは、各タスクの先行を表現し、タスク誘導されたきめ細かいアクション実行を達成する。
提案手法の進歩を検証するため,マルチエージェントの MuJoCo と SMAC ベンチマークを用いて実験を行った。
オフラインマルチタスクデータ上でHiSSDを用いたポリシをトレーニングした結果,HiSSDは効果的な協調動作を割り当て,目に見えないタスクにおいて優れた性能が得られることがわかった。
関連論文リスト
- Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning [11.790581500542439]
多様なオフラインデータセットを持つ強化学習(RL)は、複数のタスクの関係を活用する利点がある。
異なる品質の行動ポリシーによって生成される異種データセットに対して,スキルベースのマルチタスクRL手法を提案する。
我々のマルチタスクオフラインRLアプローチは、異なる品質データセットの混合構成に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-28T07:36:20Z) - Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and
Skills [17.666749042008178]
本稿では,DCMRL(Decoupled Meta-Reinforcement Learning)というフレームワークを提案する。
DCMRLは、同じタスク内で同様のタスクコンテキストを取り出し、異なるタスクの異なるタスクコンテキストをプッシュします。
実験により、DCMRLは従来のメタRL法よりも有効であり、より一般化可能な事前経験を持つことが示された。
論文 参考訳(メタデータ) (2023-12-11T16:50:14Z) - Multi-agent Continual Coordination via Progressive Task
Contextualization [5.31057635825112]
本稿では,MACPro と呼ばれるプログレッシブタスクコンテキスト化によるマルチエージェント連続コーディネートを提案する。
複数のマルチエージェントベンチマークにおいて、既存の連続学習手法が失敗するのに対し、MACProは最適に近い性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-05-07T15:04:56Z) - Active Task Randomization: Learning Robust Skills via Unsupervised
Generation of Diverse and Feasible Tasks [37.73239471412444]
我々は、教師なしのトレーニングタスクの生成を通じて、堅牢なスキルを学ぶアプローチであるActive Task Randomization (ATR)を導入する。
ATRは、タスクの多様性と実現可能性のバランスをとることで、堅牢なスキルを学ぶために、初期環境状態と操作目標からなる適切なタスクを選択する。
本研究では,視覚的入力に基づく逐次操作問題の解決のために,タスクプランナが学習スキルを構成することを実証する。
論文 参考訳(メタデータ) (2022-11-11T11:24:55Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Efficiently Identifying Task Groupings for Multi-Task Learning [55.80489920205404]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
マルチタスク学習モデルにおいて、どのタスクを一緒にトレーニングすべきかを選択するアプローチを提案する。
本手法は,全タスクを協調学習し,タスクの勾配が他のタスクの損失に影響を及ぼす影響を定量化する。
論文 参考訳(メタデータ) (2021-09-10T02:01:43Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。