論文の概要: Hybrid Training for Enhanced Multi-task Generalization in Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.13567v1
- Date: Sat, 24 Aug 2024 12:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:59:33.854136
- Title: Hybrid Training for Enhanced Multi-task Generalization in Multi-agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるマルチタスク一般化のためのハイブリッドトレーニング
- Authors: Mingliang Zhang, Sichang Su, Chengyang He, Guillaume Sartoretti,
- Abstract要約: HyGenは、オンラインとオフラインの学習を統合し、マルチタスクの一般化とトレーニング効率の両立を保証する新しいハイブリッドMARLフレームワークである。
我々は、我々のフレームワークが一般的なスキルを効果的に抽出し、洗練し、目に見えないタスクに印象的な一般化をもたらすことを実証的に実証した。
- 参考スコア(独自算出の注目度): 7.6201940008534175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-agent reinforcement learning (MARL), achieving multi-task generalization to diverse agents and objectives presents significant challenges. Existing online MARL algorithms primarily focus on single-task performance, but their lack of multi-task generalization capabilities typically results in substantial computational waste and limited real-life applicability. Meanwhile, existing offline multi-task MARL approaches are heavily dependent on data quality, often resulting in poor performance on unseen tasks. In this paper, we introduce HyGen, a novel hybrid MARL framework, Hybrid Training for Enhanced Multi-Task Generalization, which integrates online and offline learning to ensure both multi-task generalization and training efficiency. Specifically, our framework extracts potential general skills from offline multi-task datasets. We then train policies to select the optimal skills under the centralized training and decentralized execution paradigm (CTDE). During this stage, we utilize a replay buffer that integrates both offline data and online interactions. We empirically demonstrate that our framework effectively extracts and refines general skills, yielding impressive generalization to unseen tasks. Comparative analyses on the StarCraft multi-agent challenge show that HyGen outperforms a wide range of existing solely online and offline methods.
- Abstract(参考訳): マルチエージェント強化学習(MARL)では,多様なエージェントや目的に対するマルチタスクの一般化が大きな課題となっている。
既存のオンラインMARLアルゴリズムは、主にシングルタスクのパフォーマンスに重点を置いているが、マルチタスクの一般化能力の欠如は、計算の無駄と現実の応用性に限界をもたらす。
一方、既存のオフラインマルチタスクのMARLアプローチはデータ品質に大きく依存しており、しばしば目に見えないタスクのパフォーマンスが低下する。
本稿では,マルチタスクの一般化と学習効率の両立を図るために,オンラインとオフラインの学習を統合したハイブリッドMARLフレームワークであるHyGenを紹介する。
具体的には、オフラインマルチタスクデータセットから、潜在的な汎用スキルを抽出する。
次に、政策を訓練し、中央集権的な訓練・分散実行パラダイム(CTDE)の下で最適なスキルを選択する。
この段階では、オフラインデータとオンラインインタラクションの両方を統合するリプレイバッファを使用します。
我々は、我々のフレームワークが一般的なスキルを効果的に抽出し、洗練し、目に見えないタスクに印象的な一般化をもたらすことを実証的に実証した。
StarCraftのマルチエージェントチャレンジの比較分析によると、HyGenはオンラインおよびオフラインのみのメソッドで、幅広いパフォーマンスを誇っている。
関連論文リスト
- Skills Regularized Task Decomposition for Multi-task Offline Reinforcement Learning [11.790581500542439]
多様なオフラインデータセットを持つ強化学習(RL)は、複数のタスクの関係を活用する利点がある。
異なる品質の行動ポリシーによって生成される異種データセットに対して,スキルベースのマルチタスクRL手法を提案する。
我々のマルチタスクオフラインRLアプローチは、異なる品質データセットの混合構成に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-28T07:36:20Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local
Value Regularization [23.416448404647305]
OMIGAは、暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズムである。
OMIGAは、ほぼ全てのタスクにおいて、最先端のオフラインMARL法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-07-21T14:37:54Z) - Multi-task Hierarchical Adversarial Inverse Reinforcement Learning [40.60364143826424]
マルチタスク・イミテーション・ラーニング (MIL) は、マルチタスクの専門家による実演に基づくタスクの配布が可能な政策を訓練することを目的としている。
既存のMILアルゴリズムは、複雑な長距離タスクにおいて、データ効率の低下とパフォーマンスの低下に悩まされている。
階層的に構造化されたマルチタスクポリシーを学習するために,MH-AIRL(Multi-task Hierarchical Adversarial Inverse Reinforcement Learning)を開発した。
論文 参考訳(メタデータ) (2023-05-22T01:58:40Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence
Model Conquers All StarCraftII Tasks [43.588686040547486]
オンラインの微調整によるオフライン事前トレーニングは研究されておらず、オフラインMARL研究のためのデータセットやベンチマークも利用可能ではない。
オフライン学習に有効なマルチエージェント決定変換器(MADT)のアーキテクチャを提案する。
StarCraft IIのオフラインデータセットで評価すると、MADTは最先端のオフラインRLベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-12-06T08:11:05Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。