論文の概要: Beyond Shallow Behavior: Task-Efficient Value-Based Multi-Task Offline MARL via Skill Discovery
- arxiv url: http://arxiv.org/abs/2502.08985v2
- Date: Fri, 26 Sep 2025 01:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.246394
- Title: Beyond Shallow Behavior: Task-Efficient Value-Based Multi-Task Offline MARL via Skill Discovery
- Title(参考訳): 浅度行動を超えて:スキル発見によるタスク効率の良い値ベースマルチタスクオフラインMARL
- Authors: Xun Wang, Zhuoran Li, Hai Zhong, Longbo Huang,
- Abstract要約: オフラインのMARLは、オフラインデータセットのみから優れたポリシを学ぶ。
本稿では,タスク効率の高いマルチタスクオフラインMARLアルゴリズムであるSkill-Discovery conservative Q-Learning (SD-CQL)を提案する。
- 参考スコア(独自算出の注目度): 35.59197802340267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a data-driven approach, offline MARL learns superior policies solely from offline datasets, ideal for domains rich in historical data but with high interaction costs and risks. However, most existing methods are task-specific, requiring retraining for new tasks, leading to redundancy and inefficiency. To address this issue, we propose a task-efficient value-based multi-task offline MARL algorithm, Skill-Discovery Conservative Q-Learning (SD-CQL). Unlike existing methods decoding actions from skills via behavior cloning, SD-CQL discovers skills in a latent space by reconstructing the next observation, evaluates fixed and variable actions separately, and uses conservative Q-learning with local value calibration to select the optimal action for each skill. It eliminates the need for local-global alignment and enables strong multi-task generalization from limited, small-scale source tasks. Substantial experiments on StarCraft II demonstrate the superior generalization performance and task-efficiency of SD-CQL. It achieves the best performance on $\textbf{13}$ out of $14$ task sets, with up to $\textbf{68.9%}$ improvement on individual task sets.
- Abstract(参考訳): データ駆動のアプローチとして、オフラインのMARLは、過去のデータに富んだドメインに理想的な、オフラインデータセットのみから優れたポリシを学習する。
しかし、既存のほとんどのメソッドはタスク固有であり、新しいタスクを再訓練する必要があるため、冗長性と非効率性が生じる。
この問題に対処するため,タスク効率の高いマルチタスクオフラインMARLアルゴリズムであるSkill-Discovery conservative Q-Learning (SD-CQL)を提案する。
SD-CQLは、動作クローンによるスキルの復号化と異なり、次の観察を再構成することで潜伏空間のスキルを発見し、固定アクションと可変アクションを別々に評価し、局所値校正による保守的なQ-ラーニングを用いて各スキルの最適なアクションを選択する。
ローカル-グローバルアライメントの必要性を排除し、制限された小規模なソースタスクから強力なマルチタスクの一般化を可能にする。
StarCraft IIの実質的な実験は、SD-CQLのより優れた一般化性能とタスク効率を示す。
タスクセット14ドルのうち、$\textbf{13}$で最高のパフォーマンスを達成し、個々のタスクセットで最大$\textbf{68.9%}$改善する。
関連論文リスト
- Bridging Supervised and Temporal Difference Learning with $Q$-Conditioned Maximization [23.468621564156056]
教師付き学習(SL)は, 簡易性, 安定性, 効率性から, オフライン強化学習(RL)の効果的なアプローチとして出現している。
近年の研究では、SL法は、典型的には時間差(TD)に基づくアプローチと関連する、軌道縫合能力が欠如していることが示されている。
オフライン目標条件付きRLのためのQ$条件付き教師あり学習を提案する。
論文 参考訳(メタデータ) (2025-06-01T02:49:26Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Learning Generalizable Skills from Offline Multi-Task Data for Multi-Agent Cooperation [16.107745320103444]
HiSSD(Hierarchical and Separate Skill Discovery)は、スキル学習を通じて、一般化可能なオフラインマルチタスクMARLのための新しいアプローチである。
HiSSDは、共通性とタスク固有のスキルを共同で学習する階層的なフレームワークを活用している。
タスク固有のスキルは、各タスクの先行を表現し、タスク誘導されたきめ細かいアクション実行を達成する。
論文 参考訳(メタデータ) (2025-03-27T06:35:59Z) - Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning [11.790581500542439]
多様なオフラインデータセットを持つ強化学習(RL)は、複数のタスクの関係を活用する利点がある。
異なる品質の行動ポリシーによって生成される異種データセットに対して,スキルベースのマルチタスクRL手法を提案する。
我々のマルチタスクオフラインRLアプローチは、異なる品質データセットの混合構成に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-28T07:36:20Z) - $α$VIL: Learning to Leverage Auxiliary Tasks for Multitask Learning [3.809702129519642]
マルチタスク学習は、共有モデルの助けを借りて、さまざまな(通常は関連する)タスクをトレーニングすることを目的としている。
目標に有する正あるいは負の影響を推定することが重要である。
本稿では,モデル学習中にタスク重みを動的に調整できる「$alpha$Variable Learning」(「alpha$VIL」)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-13T14:12:33Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Knowledge Assembly: Semi-Supervised Multi-Task Learning from Multiple
Datasets with Disjoint Labels [8.816979799419107]
マルチタスク学習(MTL)は適切な手法であるが、通常はすべてのタスクにラベル付けされたデータセットを必要とする。
MTLフレームワークのタスクのいくつかのみにラベル付けされたデータセットを活用できる手法を提案する。
我々の研究であるKnowledge Assembly(KA)は、ラベルのないデータを半教師付きで活用することで、不連続なデータセットから複数のタスクを学習する。
論文 参考訳(メタデータ) (2023-06-15T04:05:03Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。