論文の概要: Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.08985v1
- Date: Thu, 13 Feb 2025 05:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:49:19.131747
- Title: Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
- Title(参考訳): マルチタスクオフライン型マルチエージェント強化学習のためのタスク効率の良いスキル発見
- Authors: Xun Wang, Zhuoran Li, Hai Zhong, Longbo Huang,
- Abstract要約: オフラインのMARLは、オフラインデータセットのみから優れたポリシを学ぶ。
既存のほとんどのメソッドはタスク固有のもので、新しいタスクの再トレーニングを必要とする。
本稿では,タスク効率の高いマルチタスクオフラインMARLアルゴリズムであるSkill-Discovery conservative Q-Learningを提案する。
- 参考スコア(独自算出の注目度): 40.346958259814514
- License:
- Abstract: As a data-driven approach, offline MARL learns superior policies solely from offline datasets, ideal for domains rich in historical data but with high interaction costs and risks. However, most existing methods are task-specific, requiring retraining for new tasks, leading to redundancy and inefficiency. To address this issue, in this paper, we propose a task-efficient multi-task offline MARL algorithm, Skill-Discovery Conservative Q-Learning (SD-CQL). Unlike existing offline skill-discovery methods, SD-CQL discovers skills by reconstructing the next observation. It then evaluates fixed and variable actions separately and employs behavior-regularized conservative Q-learning to execute the optimal action for each skill. This approach eliminates the need for local-global alignment and enables strong multi-task generalization from limited small-scale source tasks. Substantial experiments on StarCraftII demonstrates the superior generalization performance and task-efficiency of SD-CQL. It achieves the best performance on $\textbf{10}$ out of $14$ task sets, with up to $\textbf{65%}$ improvement on individual task sets, and is within $4\%$ of the best baseline on the remaining four.
- Abstract(参考訳): データ駆動のアプローチとして、オフラインのMARLは、過去のデータに富んだドメインに理想的な、オフラインデータセットのみから優れたポリシを学習する。
しかし、既存のほとんどのメソッドはタスク固有であり、新しいタスクを再訓練する必要があるため、冗長性と非効率性が生じる。
本稿では,タスク効率の高いマルチタスクオフラインMARLアルゴリズムであるSkill-Discovery conservative Q-Learning (SD-CQL)を提案する。
既存のオフラインスキル発見方法とは異なり、SD-CQLは次の観察を再構築することでスキルを発見する。
次に、固定アクションと可変アクションを別々に評価し、各スキルに対して最適なアクションを実行するために、行動規則化された保守的なQ-ラーニングを採用する。
このアプローチは、局所的なアライメントの必要性を排除し、限られた小規模のソースタスクから強力なマルチタスクの一般化を可能にする。
StarCraftIIの静的実験は、SD-CQLのより優れた一般化性能とタスク効率を示す。
タスクセット14ドルのうち、$\textbf{10}$で最高のパフォーマンスを達成し、個々のタスクセットで最大$\textbf{65%}$で改善され、残りの4つで最高のベースラインの4.5%以内である。
関連論文リスト
- Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning [11.790581500542439]
多様なオフラインデータセットを持つ強化学習(RL)は、複数のタスクの関係を活用する利点がある。
異なる品質の行動ポリシーによって生成される異種データセットに対して,スキルベースのマルチタスクRL手法を提案する。
我々のマルチタスクオフラインRLアプローチは、異なる品質データセットの混合構成に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-28T07:36:20Z) - $α$VIL: Learning to Leverage Auxiliary Tasks for Multitask Learning [3.809702129519642]
マルチタスク学習は、共有モデルの助けを借りて、さまざまな(通常は関連する)タスクをトレーニングすることを目的としている。
目標に有する正あるいは負の影響を推定することが重要である。
本稿では,モデル学習中にタスク重みを動的に調整できる「$alpha$Variable Learning」(「alpha$VIL」)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T14:12:33Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Knowledge Assembly: Semi-Supervised Multi-Task Learning from Multiple
Datasets with Disjoint Labels [8.816979799419107]
マルチタスク学習(MTL)は適切な手法であるが、通常はすべてのタスクにラベル付けされたデータセットを必要とする。
MTLフレームワークのタスクのいくつかのみにラベル付けされたデータセットを活用できる手法を提案する。
我々の研究であるKnowledge Assembly(KA)は、ラベルのないデータを半教師付きで活用することで、不連続なデータセットから複数のタスクを学習する。
論文 参考訳(メタデータ) (2023-06-15T04:05:03Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - TaskMix: Data Augmentation for Meta-Learning of Spoken Intent
Understanding [0.0]
本稿では,タスクの多様性が低い場合のオーバーフィッティングという問題を,最先端のデータ拡張手法により悪化させることを示す。
本稿では,既存のタスクを線形に補間することで,新しいタスクを合成する簡単なTaskMixを提案する。
TaskMixはベースラインを上回り、タスクの多様性が低い場合の過度な適合を軽減し、高い場合でも性能が低下しないことを示す。
論文 参考訳(メタデータ) (2022-09-26T00:37:40Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。