論文の概要: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation
- arxiv url: http://arxiv.org/abs/2403.12015v1
- Date: Mon, 18 Mar 2024 17:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 19:01:22.280690
- Title: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation
- Title(参考訳): 潜伏拡散蒸留による高速高分解能画像合成
- Authors: Axel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, Robin Rombach,
- Abstract要約: 蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。
ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。
ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
- 参考スコア(独自算出の注目度): 24.236841051249243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are the main driver of progress in image and video synthesis, but suffer from slow inference speed. Distillation methods, like the recently introduced adversarial diffusion distillation (ADD) aim to shift the model from many-shot to single-step inference, albeit at the cost of expensive and difficult optimization due to its reliance on a fixed pretrained DINOv2 discriminator. We introduce Latent Adversarial Diffusion Distillation (LADD), a novel distillation approach overcoming the limitations of ADD. In contrast to pixel-based ADD, LADD utilizes generative features from pretrained latent diffusion models. This approach simplifies training and enhances performance, enabling high-resolution multi-aspect ratio image synthesis. We apply LADD to Stable Diffusion 3 (8B) to obtain SD3-Turbo, a fast model that matches the performance of state-of-the-art text-to-image generators using only four unguided sampling steps. Moreover, we systematically investigate its scaling behavior and demonstrate LADD's effectiveness in various applications such as image editing and inpainting.
- Abstract(参考訳): 拡散モデルは画像合成とビデオ合成の進歩の主要因であるが、推論速度の遅さに悩まされている。
最近導入された逆拡散蒸留(ADD)のように、蒸留法は、固定された事前訓練されたDINOv2識別器に依存するため、高価で困難な最適化を犠牲にして、モデルを多段式から単段式にシフトすることを目的としている。
ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。
ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
このアプローチは、訓練を単純化し、性能を向上し、高分解能マルチアスペクト比画像合成を可能にする。
LADDを安定拡散3 (8B) に適用し, 4つの無誘導サンプリングステップのみを用いて, 最先端のテキスト・画像生成装置の性能に適合する高速モデルSD3-Turboを得る。
さらに,そのスケーリング動作を体系的に検討し,画像編集やインペイントなどの様々な応用においてLADDの有効性を示す。
関連論文リスト
- Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z) - AddSR: Accelerating Diffusion-based Blind Super-Resolution with Adversarial Diffusion Distillation [43.62480338471837]
低分解能入力からの複雑な詳細で鮮明な高分解能画像の再構成における, 安定拡散ショーケースに基づくブラインド超解像法
その実用性はしばしば、数千から数百のサンプリングステップの要求に起因して、効率の悪さによって妨げられる。
効率の良い逆拡散蒸留 (ADD) にインスパイアされた我々は, 蒸留と制御ネットの両方のアイデアを取り入れることでこの問題に対処する。
論文 参考訳(メタデータ) (2024-04-02T08:07:38Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - LoRA-Enhanced Distillation on Guided Diffusion Models [0.0]
本研究は,ローランド適応 (LoRA) とモデル蒸留を併用して効率よく拡散モデルを圧縮する新しい手法を探求する。
その結果, 蒸留プロセスによる推論時間の大幅な短縮と, メモリ消費の約50%の削減が達成された。
論文 参考訳(メタデータ) (2023-12-12T00:01:47Z) - Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。
我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。
本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文 参考訳(メタデータ) (2023-11-28T18:53:24Z) - ToddlerDiffusion: Flash Interpretable Controllable Diffusion Model [68.16230122583634]
ToddlerDiffusionは、人間の生成システムにインスパイアされた解釈可能な2D拡散画像合成フレームワークである。
提案手法では,生成過程を簡易かつ解釈可能な段階に分解し,輪郭,パレット,詳細なカラー画像を生成する。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。