論文の概要: Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.18459v2
- Date: Tue, 10 Oct 2023 13:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:54:12.855144
- Title: Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning
- Title(参考訳): diffusion modelはマルチタスク強化学習のための効果的なプランナーおよびデータシンセサイザである
- Authors: Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong
Wang, Bin Zhao, Xuelong Li
- Abstract要約: Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
- 参考スコア(独自算出の注目度): 101.66860222415512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated highly-expressive generative capabilities
in vision and NLP. Recent studies in reinforcement learning (RL) have shown
that diffusion models are also powerful in modeling complex policies or
trajectories in offline datasets. However, these works have been limited to
single-task settings where a generalist agent capable of addressing multi-task
predicaments is absent. In this paper, we aim to investigate the effectiveness
of a single diffusion model in modeling large-scale multi-task offline data,
which can be challenging due to diverse and multimodal data distribution.
Specifically, we propose Multi-Task Diffusion Model (\textsc{MTDiff}), a
diffusion-based method that incorporates Transformer backbones and prompt
learning for generative planning and data synthesis in multi-task offline
settings. \textsc{MTDiff} leverages vast amounts of knowledge available in
multi-task data and performs implicit knowledge sharing among tasks. For
generative planning, we find \textsc{MTDiff} outperforms state-of-the-art
algorithms across 50 tasks on Meta-World and 8 maps on Maze2D. For data
synthesis, \textsc{MTDiff} generates high-quality data for testing tasks given
a single demonstration as a prompt, which enhances the low-quality datasets for
even unseen tasks.
- Abstract(参考訳): 拡散モデルは視覚とNLPにおいて非常に表現力の高い生成能力を示す。
最近の強化学習(rl)の研究により、拡散モデルはオフラインデータセットにおける複雑なポリシーや軌道のモデリングにも有効であることが示されている。
しかし、これらの作業は、マルチタスクのプレディショニングに対処できるジェネラリストエージェントがいないシングルタスク設定に限定されている。
本稿では,大規模マルチタスクオフラインデータのモデル化における単一拡散モデルの有効性について検討する。
具体的には、トランスフォーマーバックボーンとプロンプトラーニングを組み込んだ拡散ベース手法であるマルチタスク拡散モデル(\textsc{mtdiff})を提案する。
\textsc{MTDiff} はマルチタスクデータで利用可能な膨大な知識を活用し、タスク間で暗黙的な知識共有を行う。
生成計画では,Meta-World上の50のタスク,Maze2D上の8のマップにおいて,‘textsc{MTDiff} は最先端のアルゴリズムよりも優れていた。
データ合成のために、 \textsc{mtdiff} は、1つのデモンストレーションをプロンプトとして与えられたタスクをテストするための高品質なデータを生成する。
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data
Generator [71.66233345255701]
Genixerは、高品質なマルチモーダルチューニングチューニングデータを生成する革新的なデータ生成パイプラインである。
10の一般的なマルチモーダルタスクのデータセットをインストラクションチューニングデータに変換する。
その後、訓練済みのMLLMを訓練し、タスク固有の命令データを生成する。
実験により、Genixerのフィルタリングされたデータは画像キャプションやVQAタスクのカカポを継続的に改善することが示された。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Uncertainty-Aware Meta-Learning for Multimodal Task Distributions [3.7470451129384825]
UnLiMiTD(マルチモーダルタスク分散のための不確実性認識メタラーニング)を提案する。
確率論的視点を採り、メタデータセット上のタスクに対してパラメトリックで調整可能な分布をトレーニングする。
我々は、UnLiMiTDの予測が、ほとんどの場合、標準ベースラインと好意的に比較され、性能的に優れていることを示した。
論文 参考訳(メタデータ) (2022-10-04T20:02:25Z) - What Makes Data-to-Text Generation Hard for Pretrained Language Models? [17.07349898176898]
構造化された事実や関係(D2T)の自然言語記述を表現することで、構造化された知識リポジトリのアクセシビリティが向上する。
従来の研究は、タスク固有のトレーニングデータを大幅に微調整した後、事前学習された言語モデル(PLM)が、このタスクに対して驚くほどうまく機能していることを示している。
DARTマルチドメインD2Tデータセット上で、微調整と自動回帰PLMの両方について実証的研究を行う。
論文 参考訳(メタデータ) (2022-05-23T17:58:39Z) - Explaining the Effectiveness of Multi-Task Learning for Efficient
Knowledge Extraction from Spine MRI Reports [2.5953185061765884]
一つのマルチタスクモデルがタスク固有のモデルの性能にマッチすることを示す。
内科医による頚椎, 腰椎への注視所見について検討した。
論文 参考訳(メタデータ) (2022-05-06T01:51:19Z) - Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。
本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。
敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2020-07-01T09:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。