論文の概要: Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks
- arxiv url: http://arxiv.org/abs/2403.00644v1
- Date: Fri, 1 Mar 2024 16:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:58:01.861307
- Title: Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks
- Title(参考訳): Diff-Plugin:拡散に基づく低レベルタスクの再現
- Authors: Yuhao Liu, Fang Liu, Zhanghan Ke, Nanxuan Zhao, Rynson W.H. Lau
- Abstract要約: 本稿では,複数の低レベルタスクにまたがって,単一の事前学習拡散モデルによる高忠実度結果の生成を可能にする新しいDiffフレームワークを提案する。
具体的には、まず、イメージコンテンツを保存するための拡散過程を導くために、二重分岐設計の軽量なTask-モジュールを提案する。
次に、テキスト命令に基づいて異なるタスクを自動選択できるタスクセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。
- 参考スコア(独自算出の注目度): 49.75825940210543
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models trained on large-scale datasets have achieved remarkable
progress in image synthesis. However, due to the randomness in the diffusion
process, they often struggle with handling diverse low-level tasks that require
details preservation. To overcome this limitation, we present a new Diff-Plugin
framework to enable a single pre-trained diffusion model to generate
high-fidelity results across a variety of low-level tasks. Specifically, we
first propose a lightweight Task-Plugin module with a dual branch design to
provide task-specific priors, guiding the diffusion process in preserving image
content. We then propose a Plugin-Selector that can automatically select
different Task-Plugins based on the text instruction, allowing users to edit
images by indicating multiple low-level tasks with natural language. We conduct
extensive experiments on 8 low-level vision tasks. The results demonstrate the
superiority of Diff-Plugin over existing methods, particularly in real-world
scenarios. Our ablations further validate that Diff-Plugin is stable,
schedulable, and supports robust training across different dataset sizes.
- Abstract(参考訳): 大規模データセットでトレーニングされた拡散モデルは、画像合成において著しく進歩した。
しかし拡散過程のランダム性のため、細部保存を必要とする多様な低レベルのタスクを扱うのにしばしば苦労する。
この制限を克服するために,1つの事前学習された拡散モデルが様々な低レベルタスクで高忠実度結果を生成するための新しいdiff-pluginフレームワークを提案する。
具体的には,まず,画像コンテンツ保存における拡散過程を導くタスク固有のプリエントを提供するために,デュアルブランチ設計の軽量タスクプラグインモジュールを提案する。
次に、テキスト命令に基づいて異なるタスクを自動選択できるプラグインセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。
我々は8つの低レベル視覚タスクについて広範な実験を行った。
その結果,実世界のシナリオにおいて,既存手法よりもdiff-pluginが優れていることが示された。
Diff-Pluginは安定していて、スケジューリング可能で、さまざまなデータセットサイズにわたる堅牢なトレーニングをサポートしています。
関連論文リスト
- Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。
事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。
そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
論文 参考訳(メタデータ) (2024-09-30T05:05:37Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data [16.501973201535442]
我々は,部分ラベル付きマルチタスクの高密度予測を画素レベルの分解問題として再検討する。
本稿では,DiffusionMTLと呼ばれる新しいマルチタスク・デノナイズ・フレームワークを提案する。
タスク予測や特徴写像の潜在的なノイズ分布をモデル化するために、共用拡散・雑音化パラダイムを設計する。
論文 参考訳(メタデータ) (2024-03-22T17:59:58Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。