Fugu-MT 論文翻訳(概要): Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks

論文の概要: Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks

arxiv url: http://arxiv.org/abs/2403.00644v1
Date: Fri, 1 Mar 2024 16:25:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 16:58:01.861307
Title: Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks
Title（参考訳）: Diff-Plugin:拡散に基づく低レベルタスクの再現
Authors: Yuhao Liu, Fang Liu, Zhanghan Ke, Nanxuan Zhao, Rynson W.H. Lau
Abstract要約: 本稿では,複数の低レベルタスクにまたがって,単一の事前学習拡散モデルによる高忠実度結果の生成を可能にする新しいDiffフレームワークを提案する。具体的には、まず、イメージコンテンツを保存するための拡散過程を導くために、二重分岐設計の軽量なTask-モジュールを提案する。次に、テキスト命令に基づいて異なるタスクを自動選択できるタスクセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。
参考スコア（独自算出の注目度）: 49.75825940210543
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Diffusion models trained on large-scale datasets have achieved remarkable progress in image synthesis. However, due to the randomness in the diffusion process, they often struggle with handling diverse low-level tasks that require details preservation. To overcome this limitation, we present a new Diff-Plugin framework to enable a single pre-trained diffusion model to generate high-fidelity results across a variety of low-level tasks. Specifically, we first propose a lightweight Task-Plugin module with a dual branch design to provide task-specific priors, guiding the diffusion process in preserving image content. We then propose a Plugin-Selector that can automatically select different Task-Plugins based on the text instruction, allowing users to edit images by indicating multiple low-level tasks with natural language. We conduct extensive experiments on 8 low-level vision tasks. The results demonstrate the superiority of Diff-Plugin over existing methods, particularly in real-world scenarios. Our ablations further validate that Diff-Plugin is stable, schedulable, and supports robust training across different dataset sizes.
Abstract（参考訳）: 大規模データセットでトレーニングされた拡散モデルは、画像合成において著しく進歩した。しかし拡散過程のランダム性のため、細部保存を必要とする多様な低レベルのタスクを扱うのにしばしば苦労する。この制限を克服するために,1つの事前学習された拡散モデルが様々な低レベルタスクで高忠実度結果を生成するための新しいdiff-pluginフレームワークを提案する。具体的には,まず,画像コンテンツ保存における拡散過程を導くタスク固有のプリエントを提供するために,デュアルブランチ設計の軽量タスクプラグインモジュールを提案する。次に、テキスト命令に基づいて異なるタスクを自動選択できるプラグインセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。我々は8つの低レベル視覚タスクについて広範な実験を行った。その結果,実世界のシナリオにおいて,既存手法よりもdiff-pluginが優れていることが示された。 Diff-Pluginは安定していて、スケジューリング可能で、さまざまなデータセットサイズにわたる堅牢なトレーニングをサポートしています。

関連論文リスト

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities [8.81828807024982]
マルチタスク・アップサイクリング(Multi-Task Upcycling, MTU)は、トレーニング済みのテキスト・ツー・イメージ拡散モデルの能力を拡張し、様々な画像・画像生成タスクをサポートするレシピである。 MTUは、マルチタスクとデバイス上の互換性をシームレスにブレンドする最初のマルチタスク拡散モデリング手法である。 MTUの性能は,複数のタスクにまたがる単一タスクの微調整拡散モデルと同等であることを示す。
論文参考訳（メタデータ） (2025-03-14T22:19:20Z)
BD-Diff: Generative Diffusion Model for Image Deblurring on Unknown Domains with Blur-Decoupled Learning [55.21345354747609]
BD-Diffは、未知の領域における劣化性能を高めるために設計された生成拡散モデルである。構造表現とぼやけたパターン抽出器に2つのQ-Formerを別々に採用する。構造的特徴とぼやけたパターンを補完する再構成タスクを導入する。
論文参考訳（メタデータ） (2025-02-03T17:00:40Z)
Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。 ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文参考訳（メタデータ） (2024-12-07T11:19:32Z)
Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner [12.360598915420255]
textbfDiffusion textbfPlannerを学習する2段階フレームワークである textbfSODP を提案する。事前学習段階では,マルチタスクトラジェクトリの多目的分布をモデル化し,一般的な計画能力を抽出する基礎拡散プランナを訓練する。そして、下流タスクに対して、拡散プランナーを高速に洗練するために、タスク固有の報酬を伴うRLベースの微調整を採用する。
論文参考訳（メタデータ） (2024-09-30T05:05:37Z)
PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。多様な命令追跡データの欠如は、モデルの開発を妨げている。本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文参考訳（メタデータ） (2024-05-27T03:13:28Z)
DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data [16.501973201535442]
我々は,部分ラベル付きマルチタスクの高密度予測を画素レベルの分解問題として再検討する。本稿では,DiffusionMTLと呼ばれる新しいマルチタスク・デノナイズ・フレームワークを提案する。タスク予測や特徴写像の潜在的なノイズ分布をモデル化するために、共用拡散・雑音化パラダイムを設計する。
論文参考訳（メタデータ） (2024-03-22T17:59:58Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。 Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文参考訳（メタデータ） (2023-03-11T05:23:20Z)
Versatile Diffusion: Text, Images and Variations All in One Diffusion Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文参考訳（メタデータ） (2022-11-15T17:44:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。