Fugu-MT 論文翻訳(概要): Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner

論文の概要: Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner

arxiv url: http://arxiv.org/abs/2409.19949v1
Date: Mon, 30 Sep 2024 05:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 16:37:45.633092
Title: Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner
Title（参考訳）: Versatile Diffusion Plannerのためのタスク非依存事前学習とタスク誘導微調整
Authors: Chenyou Fan, Chenjia Bai, Zhao Shan, Haoran He, Yang Zhang, Zhen Wang,
Abstract要約: textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
参考スコア（独自算出の注目度）: 12.360598915420255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have demonstrated their capabilities in modeling trajectories of multi-tasks. However, existing multi-task planners or policies typically rely on task-specific demonstrations via multi-task imitation, or require task-specific reward labels to facilitate policy optimization via Reinforcement Learning (RL). To address these challenges, we aim to develop a versatile diffusion planner that can leverage large-scale inferior data that contains task-agnostic sub-optimal trajectories, with the ability to fast adapt to specific tasks. In this paper, we propose \textbf{SODP}, a two-stage framework that leverages \textbf{S}ub-\textbf{O}ptimal data to learn a \textbf{D}iffusion \textbf{P}lanner, which is generalizable for various downstream tasks. Specifically, in the pre-training stage, we train a foundation diffusion planner that extracts general planning capabilities by modeling the versatile distribution of multi-task trajectories, which can be sub-optimal and has wide data coverage. Then for downstream tasks, we adopt RL-based fine-tuning with task-specific rewards to fast refine the diffusion planner, which aims to generate action sequences with higher task-specific returns. Experimental results from multi-task domains including Meta-World and Adroit demonstrate that SODP outperforms state-of-the-art methods with only a small amount of data for reward-guided fine-tuning.
Abstract（参考訳）: 拡散モデルはマルチタスクの軌跡をモデル化する能力を示した。しかし、既存のマルチタスクプランナやポリシーは、通常、マルチタスクの模倣によるタスク固有のデモンストレーションや、強化学習(RL)によるポリシー最適化を促進するためにタスク固有の報酬ラベルを必要とする。これらの課題に対処するために,タスク非依存の準最適軌道を含む大規模劣等データを利用して,特定のタスクに迅速に適応できる汎用拡散プランナを開発することを目的とする。本稿では, 様々な下流タスクに対して一般化可能な \textbf{D}iffusion \textbf{P}lanner を学習するために, \textbf{S}ub-\textbf{O}ptimalデータを利用する2段階フレームワークである \textbf{SODP} を提案する。具体的には、事前学習段階において、準最適で広範なデータカバレッジを有するマルチタスク軌道の多目的分布をモデル化することにより、一般的な計画能力を抽出する基礎拡散プランナーを訓練する。そして、下流タスクに対して、より高いタスク固有リターンを持つアクションシーケンスを生成することを目的とした拡散プランナーを高速に洗練するために、タスク固有リターンを持つRLベースの微調整を採用する。 Meta-World や Adroit などのマルチタスクドメインによる実験結果から,SODP は報酬誘導微調整のための少量のデータのみを用いて最先端の手法より優れていることが示された。

関連論文リスト

Enhancing Pre-Trained Decision Transformers with Prompt-Tuning Bandits [2.6731152954002924]
本稿では,高速なトラジェクトリ・プロンプトを構築するために,スケーラブルなバンディットベースのプロンプトチューニング手法を提案する。我々の手法は、トレーニング済みのTransformerのバックボーンを変更することなく、ダウンストリームタスクのパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-02-07T14:57:17Z)
Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。 ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文参考訳（メタデータ） (2024-12-27T10:05:45Z)
Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
Generalization of Compositional Tasks with Logical Specification via Implicit Planning [14.46490764849977]
本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
論文参考訳（メタデータ） (2024-10-13T00:57:10Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
AnyTaskTune: Advanced Domain-Specific Solutions through Task-Fine-Tuning [22.208506419271043]
textbfAnyTaskTuneは、さまざまなドメイン固有のタスクでモデルパフォーマンスを高めるための、新しい微調整手法である。金融,医療,法,心理学,消費者サービス,人的資源の領域から派生した20以上のサブタスクを対象とした実験を行った。以上の結果から,textbfTask-Fine-Tune法を用いて微調整したモデルが,これらのタスクにおいて優れた性能を発揮するだけでなく,各領域で高い汎用性を持つモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-07-09T17:59:56Z)
BoRA: Bayesian Hierarchical Low-Rank Adaption for Multi-task Large Language Models [0.0]
本稿では,マルチタスク大言語モデル(LLM)を微調整する新しい手法であるベイジアン階層型低ランク適応(BoRA)を紹介する。 BoRAは、グローバルな階層的事前を通じてタスクが情報を共有できるベイズ階層モデルを活用することでトレードオフに対処する。実験の結果,BoRAは個々のモデルアプローチと統一モデルアプローチの両方に優れており,より難易度が低く,タスク間の一般化性が向上していることがわかった。
論文参考訳（メタデータ） (2024-07-08T06:38:50Z)
Unlocking Large Language Model's Planning Capabilities with Maximum Diversity Fine-tuning [10.704716790096498]
大規模言語モデル(LLM)は、技術やシステム設計の促進を通じて、目覚ましいタスク解決能力を示している。事前データに制限のあるタスクを計画するためには、GPTやGeminiといったプロプライエタリなモデルを含むLLMのパフォーマンスは貧弱である。本稿では,LLMの計画能力に及ぼす微調整の影響について検討する。
論文参考訳（メタデータ） (2024-06-15T03:06:14Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt [67.8934749027315]
本稿では,タスク識別と位置識別をGNNに注入する,グラフハイブリッド事前学習のための統合フレームワークを提案する。また,約$k$-nearest隣人のグループに基づいた,新しい事前学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-23T12:11:13Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-30T03:09:45Z)
Generalization with Lossy Affordances: Leveraging Broad Offline Data for Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文参考訳（メタデータ） (2022-10-12T21:46:38Z)
Semi-supervised Multi-task Learning for Semantics and Depth [88.77716991603252]
MTL(Multi-Task Learning)は、関連するタスク間で表現を共有することで、モデル一般化を強化することを目的としている。そこで本研究では,異なるデータセットから利用可能な監視信号を活用するために,半教師付きマルチタスク学習(MTL)手法を提案する。本稿では,データセット間の整合性の問題を軽減するために,様々なアライメントの定式化を施したドメイン認識識別器構造を提案する。
論文参考訳（メタデータ） (2021-10-14T07:43:39Z)
PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。本研究は,PlanGANが4～8倍の効率で,同等の性能を達成できることを示唆する。
論文参考訳（メタデータ） (2020-06-01T12:53:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。