論文の概要: Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner
- arxiv url: http://arxiv.org/abs/2409.19949v2
- Date: Sun, 02 Feb 2025 13:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:06:58.092799
- Title: Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner
- Title(参考訳): Versatile Diffusion Plannerのためのタスク非依存事前学習とタスク誘導微調整
- Authors: Chenyou Fan, Chenjia Bai, Zhao Shan, Haoran He, Yang Zhang, Zhen Wang,
- Abstract要約: 拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。
既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーションや、タスク固有の報酬ラベルを必要とする。
本稿では,タスク非依存の準最適軌道を含む大規模劣等データを活用する多目的拡散プランナを提案する。
- 参考スコア(独自算出の注目度): 12.360598915420255
- License:
- Abstract: Diffusion models have demonstrated their capabilities in modeling trajectories of multi-tasks. However, existing multi-task planners or policies typically rely on task-specific demonstrations via multi-task imitation, or require task-specific reward labels to facilitate policy optimization via Reinforcement Learning (RL). They are costly due to the substantial human efforts required to collect expert data or design reward functions. To address these challenges, we aim to develop a versatile diffusion planner capable of leveraging large-scale inferior data that contains task-agnostic sub-optimal trajectories, with the ability to fast adapt to specific tasks. In this paper, we propose SODP, a two-stage framework that leverages Sub-Optimal data to learn a Diffusion Planner, which is generalizable for various downstream tasks. Specifically, in the pre-training stage, we train a foundation diffusion planner that extracts general planning capabilities by modeling the versatile distribution of multi-task trajectories, which can be sub-optimal and has wide data coverage. Then for downstream tasks, we adopt RL-based fine-tuning with task-specific rewards to quickly refine the diffusion planner, which aims to generate action sequences with higher task-specific returns. Experimental results from multi-task domains including Meta-World and Adroit demonstrate that SODP outperforms state-of-the-art methods with only a small amount of data for reward-guided fine-tuning.
- Abstract(参考訳): 拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。
しかし、既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーション、あるいは強化学習(RL)によるポリシー最適化を促進するためにタスク固有の報酬ラベルを必要とする。
これらは、専門家のデータ収集や報酬関数の設計に必要な人的努力によってコストがかかる。
これらの課題に対処するために,タスク非依存の準最適軌道を含む大規模劣等データを利用して,特定のタスクに迅速に適応できる汎用拡散プランナを開発することを目的とする。
本稿では,複数のダウンストリームタスクに対して一般化可能な拡散プランナを学習するために,サブ最適データを活用する2段階フレームワークSODPを提案する。
具体的には、事前学習段階において、準最適で広範なデータカバレッジを有するマルチタスク軌道の多目的分布をモデル化することにより、一般的な計画能力を抽出する基礎拡散プランナーを訓練する。
そして、下流タスクに対しては、タスク固有リターンの高いアクションシーケンスを生成することを目的とした拡散プランナーを高速に洗練するために、タスク固有リターンを用いたRLベースの微調整を採用する。
Meta-World や Adroit などのマルチタスクドメインによる実験結果から,SODP は報酬誘導微調整のための少量のデータのみを用いて最先端の手法より優れていることが示された。
関連論文リスト
- Enhancing Pre-Trained Decision Transformers with Prompt-Tuning Bandits [2.6731152954002924]
本稿では,高速なトラジェクトリ・プロンプトを構築するために,スケーラブルなバンディットベースのプロンプトチューニング手法を提案する。
我々の手法は、トレーニング済みのTransformerのバックボーンを変更することなく、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-02-07T14:57:17Z) - Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - Generalization of Compositional Tasks with Logical Specification via Implicit Planning [14.46490764849977]
本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
論文 参考訳(メタデータ) (2024-10-13T00:57:10Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の推進によって達成された、目覚ましいタスク解決能力を示している。
本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
計画領域におけるファインチューニングのサンプル効率を向上させるために,MDFT(Maximum Diversity Fine-Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-06-15T03:06:14Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。