論文の概要: Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.18459v2
- Date: Tue, 10 Oct 2023 13:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:54:12.855144
- Title: Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning
- Title(参考訳): diffusion modelはマルチタスク強化学習のための効果的なプランナーおよびデータシンセサイザである
- Authors: Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong
Wang, Bin Zhao, Xuelong Li
- Abstract要約: Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
- 参考スコア(独自算出の注目度): 101.66860222415512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated highly-expressive generative capabilities
in vision and NLP. Recent studies in reinforcement learning (RL) have shown
that diffusion models are also powerful in modeling complex policies or
trajectories in offline datasets. However, these works have been limited to
single-task settings where a generalist agent capable of addressing multi-task
predicaments is absent. In this paper, we aim to investigate the effectiveness
of a single diffusion model in modeling large-scale multi-task offline data,
which can be challenging due to diverse and multimodal data distribution.
Specifically, we propose Multi-Task Diffusion Model (\textsc{MTDiff}), a
diffusion-based method that incorporates Transformer backbones and prompt
learning for generative planning and data synthesis in multi-task offline
settings. \textsc{MTDiff} leverages vast amounts of knowledge available in
multi-task data and performs implicit knowledge sharing among tasks. For
generative planning, we find \textsc{MTDiff} outperforms state-of-the-art
algorithms across 50 tasks on Meta-World and 8 maps on Maze2D. For data
synthesis, \textsc{MTDiff} generates high-quality data for testing tasks given
a single demonstration as a prompt, which enhances the low-quality datasets for
even unseen tasks.
- Abstract(参考訳): 拡散モデルは視覚とNLPにおいて非常に表現力の高い生成能力を示す。
最近の強化学習(rl)の研究により、拡散モデルはオフラインデータセットにおける複雑なポリシーや軌道のモデリングにも有効であることが示されている。
しかし、これらの作業は、マルチタスクのプレディショニングに対処できるジェネラリストエージェントがいないシングルタスク設定に限定されている。
本稿では,大規模マルチタスクオフラインデータのモデル化における単一拡散モデルの有効性について検討する。
具体的には、トランスフォーマーバックボーンとプロンプトラーニングを組み込んだ拡散ベース手法であるマルチタスク拡散モデル(\textsc{mtdiff})を提案する。
\textsc{MTDiff} はマルチタスクデータで利用可能な膨大な知識を活用し、タスク間で暗黙的な知識共有を行う。
生成計画では,Meta-World上の50のタスク,Maze2D上の8のマップにおいて,‘textsc{MTDiff} は最先端のアルゴリズムよりも優れていた。
データ合成のために、 \textsc{mtdiff} は、1つのデモンストレーションをプロンプトとして与えられたタスクをテストするための高品質なデータを生成する。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。
事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。
そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
論文 参考訳(メタデータ) (2024-09-30T05:05:37Z) - AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。
複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。
最先端の刈り取り法に比べて優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T17:19:15Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。
本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。
敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2020-07-01T09:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。