Fugu-MT 論文翻訳(概要): Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

論文の概要: Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.18459v2
Date: Tue, 10 Oct 2023 13:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 11:54:12.855144
Title: Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning
Title（参考訳）: diffusion modelはマルチタスク強化学習のための効果的なプランナーおよびデータシンセサイザである
Authors: Haoran He, Chenjia Bai, Kang Xu, Zhuoran Yang, Weinan Zhang, Dong Wang, Bin Zhao, Xuelong Li
Abstract要約: Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
参考スコア（独自算出の注目度）: 101.66860222415512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have demonstrated highly-expressive generative capabilities in vision and NLP. Recent studies in reinforcement learning (RL) have shown that diffusion models are also powerful in modeling complex policies or trajectories in offline datasets. However, these works have been limited to single-task settings where a generalist agent capable of addressing multi-task predicaments is absent. In this paper, we aim to investigate the effectiveness of a single diffusion model in modeling large-scale multi-task offline data, which can be challenging due to diverse and multimodal data distribution. Specifically, we propose Multi-Task Diffusion Model (\textsc{MTDiff}), a diffusion-based method that incorporates Transformer backbones and prompt learning for generative planning and data synthesis in multi-task offline settings. \textsc{MTDiff} leverages vast amounts of knowledge available in multi-task data and performs implicit knowledge sharing among tasks. For generative planning, we find \textsc{MTDiff} outperforms state-of-the-art algorithms across 50 tasks on Meta-World and 8 maps on Maze2D. For data synthesis, \textsc{MTDiff} generates high-quality data for testing tasks given a single demonstration as a prompt, which enhances the low-quality datasets for even unseen tasks.
Abstract（参考訳）: 拡散モデルは視覚とNLPにおいて非常に表現力の高い生成能力を示す。最近の強化学習(rl)の研究により、拡散モデルはオフラインデータセットにおける複雑なポリシーや軌道のモデリングにも有効であることが示されている。しかし、これらの作業は、マルチタスクのプレディショニングに対処できるジェネラリストエージェントがいないシングルタスク設定に限定されている。本稿では,大規模マルチタスクオフラインデータのモデル化における単一拡散モデルの有効性について検討する。具体的には、トランスフォーマーバックボーンとプロンプトラーニングを組み込んだ拡散ベース手法であるマルチタスク拡散モデル(\textsc{mtdiff})を提案する。 \textsc{MTDiff} はマルチタスクデータで利用可能な膨大な知識を活用し、タスク間で暗黙的な知識共有を行う。生成計画では,Meta-World上の50のタスク,Maze2D上の8のマップにおいて,‘textsc{MTDiff} は最先端のアルゴリズムよりも優れていた。データ合成のために、 \textsc{mtdiff} は、1つのデモンストレーションをプロンプトとして与えられたタスクをテストするための高品質なデータを生成する。

関連論文リスト

MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning [20.79390984800288]
大規模言語モデル(LLM)は、様々なタスクにまたがってますます適用されてきている。本稿では,多種多様な命令チューニングのためのモデルフリーデータ手法MDITを提案する。複数のベンチマークタスクにおいて,本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2025-04-09T21:28:17Z)
Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文参考訳（メタデータ） (2025-01-16T16:19:53Z)
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data [35.85909368345219]
大規模マルチモーダル命令データセットであるInfinity-MMを導入する。統一された前処理を実行し、多様性と正確性を保証する4000万以上のサンプルからなるデータセットを作成しました。タグ付けシステムとオープンソースのVision-Languageモデルに基づく合成命令生成手法を提案する。
論文参考訳（メタデータ） (2024-10-24T09:03:48Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
論文参考訳（メタデータ） (2024-09-30T05:05:37Z)
AdapMTL: Adaptive Pruning Framework for Multitask Learning Model [5.643658120200373]
AdapMTLはマルチタスクモデルのための適応型プルーニングフレームワークである。複数のタスクにまたがって、空間割り当てと精度のパフォーマンスのバランスをとる。最先端の刈り取り法に比べて優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T17:19:15Z)
A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文参考訳（メタデータ） (2024-07-23T11:14:54Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
An Efficient General-Purpose Modular Vision Model via Multi-Task Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文参考訳（メタデータ） (2023-06-29T17:59:57Z)
Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文参考訳（メタデータ） (2020-07-01T09:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。