論文の概要: Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps
- arxiv url: http://arxiv.org/abs/2406.14539v3
- Date: Mon, 02 Dec 2024 16:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:53.015575
- Title: Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps
- Title(参考訳): テキストガイド画像編集における約7ステップの非可逆整合蒸留
- Authors: Nikita Starodubcev, Mikhail Khoroshikh, Artem Babenko, Dmitry Baranchuk,
- Abstract要約: 本研究の目的は, 蒸留されたテキストから画像への拡散モデルに, 実画像の潜在空間へのエンコードを効果的に行うことにある。
Invertible Consistency Distillation (iCD) は,高画質な画像合成と高精度な画像符号化を,わずか3~4ステップで実現する,汎用的な一貫性蒸留フレームワークである。
我々は、ダイナミックガイダンスを備えたiCDが、より高価な最先端の代替品と競合して、ゼロショットテキスト誘導画像編集の高効率ツールとして役立つことを実証した。
- 参考スコア(独自算出の注目度): 24.372192691537897
- License:
- Abstract: Diffusion distillation represents a highly promising direction for achieving faithful text-to-image generation in a few sampling steps. However, despite recent successes, existing distilled models still do not provide the full spectrum of diffusion abilities, such as real image inversion, which enables many precise image manipulation methods. This work aims to enrich distilled text-to-image diffusion models with the ability to effectively encode real images into their latent space. To this end, we introduce invertible Consistency Distillation (iCD), a generalized consistency distillation framework that facilitates both high-quality image synthesis and accurate image encoding in only 3-4 inference steps. Though the inversion problem for text-to-image diffusion models gets exacerbated by high classifier-free guidance scales, we notice that dynamic guidance significantly reduces reconstruction errors without noticeable degradation in generation performance. As a result, we demonstrate that iCD equipped with dynamic guidance may serve as a highly effective tool for zero-shot text-guided image editing, competing with more expensive state-of-the-art alternatives.
- Abstract(参考訳): 拡散蒸留は、いくつかのサンプリングステップで忠実なテキスト・画像生成を実現するための非常に有望な方向を示す。
しかし、近年の成功にもかかわらず、既存の蒸留モデルは、実際の画像反転のような拡散能力の完全なスペクトルを提供していないため、多くの正確な画像操作が可能である。
本研究の目的は, 蒸留されたテキストから画像への拡散モデルに, 実画像の潜在空間へのエンコードを効果的に行うことにある。
そこで本研究では,高品質な画像合成と高精度な画像符号化を,わずか3~4ステップで実現する,汎用的な一貫性蒸留フレームワークであるinvertible Consistency Distillation (iCD)を導入する。
テキストから画像への拡散モデルの逆転問題は、高分類器のないガイダンス尺度によって悪化するが、動的ガイダンスは、生成性能の顕著な劣化を伴わずに、再構成エラーを著しく低減することに気づく。
その結果、ダイナミックガイダンスを備えたiCDは、より高価な最先端の代替品と競合するゼロショットテキスト誘導画像編集において、非常に効果的なツールである可能性が示された。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation [24.236841051249243]
蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。
ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。
ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-18T17:51:43Z) - MirrorDiffusion: Stabilizing Diffusion Process in Zero-shot Image
Translation by Prompts Redescription and Beyond [57.14128305383768]
拡散モデル(MirrorDiffusion)における音源と再構成画像のミラー効果を実現するための素早い再記述手法を提案する。
MirrorDiffusionはゼロショット画像変換ベンチマークの最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-01-06T14:12:16Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。