論文の概要: Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner
- arxiv url: http://arxiv.org/abs/2409.19949v1
- Date: Mon, 30 Sep 2024 05:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:22.385972
- Title: Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner
- Title(参考訳): Versatile Diffusion Plannerのためのタスク非依存事前学習とタスク誘導微調整
- Authors: Chenyou Fan, Chenjia Bai, Zhao Shan, Haoran He, Yang Zhang, Zhen Wang,
- Abstract要約: textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。
事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。
そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
- 参考スコア(独自算出の注目度): 12.360598915420255
- License:
- Abstract: Diffusion models have demonstrated their capabilities in modeling trajectories of multi-tasks. However, existing multi-task planners or policies typically rely on task-specific demonstrations via multi-task imitation, or require task-specific reward labels to facilitate policy optimization via Reinforcement Learning (RL). To address these challenges, we aim to develop a versatile diffusion planner that can leverage large-scale inferior data that contains task-agnostic sub-optimal trajectories, with the ability to fast adapt to specific tasks. In this paper, we propose \textbf{SODP}, a two-stage framework that leverages \textbf{S}ub-\textbf{O}ptimal data to learn a \textbf{D}iffusion \textbf{P}lanner, which is generalizable for various downstream tasks. Specifically, in the pre-training stage, we train a foundation diffusion planner that extracts general planning capabilities by modeling the versatile distribution of multi-task trajectories, which can be sub-optimal and has wide data coverage. Then for downstream tasks, we adopt RL-based fine-tuning with task-specific rewards to fast refine the diffusion planner, which aims to generate action sequences with higher task-specific returns. Experimental results from multi-task domains including Meta-World and Adroit demonstrate that SODP outperforms state-of-the-art methods with only a small amount of data for reward-guided fine-tuning.
- Abstract(参考訳): 拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。
しかし、既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーションや、強化学習(RL)によるポリシー最適化を促進するためにタスク固有の報酬ラベルを必要とする。
これらの課題に対処するために,タスク非依存の準最適軌道を含む大規模劣等データを利用して,特定のタスクに迅速に適応できる汎用拡散プランナを開発することを目的とする。
本稿では, 様々な下流タスクに対して一般化可能な \textbf{D}iffusion \textbf{P}lanner を学習するために, \textbf{S}ub-\textbf{O}ptimalデータを利用する2段階フレームワークである \textbf{SODP} を提案する。
具体的には、事前学習段階において、準最適で広範なデータカバレッジを有するマルチタスク軌道の多目的分布をモデル化することにより、一般的な計画能力を抽出する基礎拡散プランナーを訓練する。
そして、下流タスクに対して、より高いタスク固有リターンを持つアクションシーケンスを生成することを目的とした拡散プランナーを高速に洗練するために、タスク固有リターンを持つRLベースの微調整を採用する。
Meta-World や Adroit などのマルチタスクドメインによる実験結果から,SODP は報酬誘導微調整のための少量のデータのみを用いて最先端の手法より優れていることが示された。
関連論文リスト
- AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning [22.208506419271043]
textbfAnyTaskTuneは、さまざまなドメイン固有のタスクでモデルパフォーマンスを高めるための、新しい微調整手法である。
金融,医療,法,心理学,消費者サービス,人的資源の領域から派生した20以上のサブタスクを対象とした実験を行った。
以上の結果から,textbfTask-Fine-Tune法を用いて微調整したモデルが,これらのタスクにおいて優れた性能を発揮するだけでなく,各領域で高い汎用性を持つモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-07-09T17:59:56Z) - Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の推進によって達成された、目覚ましいタスク解決能力を示している。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
計画領域におけるファインチューニングのサンプル効率を向上させるために,MDFT(Maximum Diversity Fine-Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-06-15T03:06:14Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Diffused Task-Agnostic Milestone Planner [13.042155799536657]
本稿では,拡散に基づく生成系列モデルを用いて,潜在空間における一連のマイルストーンを計画する手法を提案する。
提案手法は,マイルストーンの制御関連低次元潜在表現を学習し,長期計画と視覚に基づく制御を効率的に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T10:09:22Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。
また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:11:13Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。
本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T03:09:45Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。
そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。
本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文 参考訳(メタデータ) (2021-10-14T07:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。