Fugu-MT 論文翻訳(概要): Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

論文の概要: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

arxiv url: http://arxiv.org/abs/2403.12015v1
Date: Mon, 18 Mar 2024 17:51:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 19:01:22.280690
Title: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation
Title（参考訳）: 潜伏拡散蒸留による高速高分解能画像合成
Authors: Axel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, Robin Rombach,
Abstract要約: 蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。 ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
参考スコア（独自算出の注目度）: 24.236841051249243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models are the main driver of progress in image and video synthesis, but suffer from slow inference speed. Distillation methods, like the recently introduced adversarial diffusion distillation (ADD) aim to shift the model from many-shot to single-step inference, albeit at the cost of expensive and difficult optimization due to its reliance on a fixed pretrained DINOv2 discriminator. We introduce Latent Adversarial Diffusion Distillation (LADD), a novel distillation approach overcoming the limitations of ADD. In contrast to pixel-based ADD, LADD utilizes generative features from pretrained latent diffusion models. This approach simplifies training and enhances performance, enabling high-resolution multi-aspect ratio image synthesis. We apply LADD to Stable Diffusion 3 (8B) to obtain SD3-Turbo, a fast model that matches the performance of state-of-the-art text-to-image generators using only four unguided sampling steps. Moreover, we systematically investigate its scaling behavior and demonstrate LADD's effectiveness in various applications such as image editing and inpainting.
Abstract（参考訳）: 拡散モデルは画像合成とビデオ合成の進歩の主要因であるが、推論速度の遅さに悩まされている。最近導入された逆拡散蒸留(ADD)のように、蒸留法は、固定された事前訓練されたDINOv2識別器に依存するため、高価で困難な最適化を犠牲にして、モデルを多段式から単段式にシフトすることを目的としている。 ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。このアプローチは、訓練を単純化し、性能を向上し、高分解能マルチアスペクト比画像合成を可能にする。 LADDを安定拡散3 (8B) に適用し, 4つの無誘導サンプリングステップのみを用いて, 最先端のテキスト・画像生成装置の性能に適合する高速モデルSD3-Turboを得る。さらに,そのスケーリング動作を体系的に検討し,画像編集やインペイントなどの様々な応用においてLADDの有効性を示す。

関連論文リスト

Diffusion Once and Done: Degradation-Aware LoRA for Efficient All-in-One Image Restoration [14.922600858354983]
Diffusion Once and Done (DOD) 法は, 安定拡散(SD)モデルの1段階サンプリングのみで, 優れた復元性能を実現することを目的としている。本手法は,視覚的品質と推論効率の両方において,既存の拡散型修復手法よりも優れる。
論文参考訳（メタデータ） (2025-08-05T12:26:28Z)
Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。 SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文参考訳（メタデータ） (2025-07-24T16:45:05Z)
Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation [49.202383675543466]
本稿では,単一画像から3次元モデルを生成する拡散過程の高速化に取り組むために,Acc3Dを提案する。数段階の推論によって高品質な再構成を導出するため,ランダムノイズ状態におけるスコア関数の学習を規則化する上で重要な課題を強調した。
論文参考訳（メタデータ） (2025-03-20T09:18:10Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文参考訳（メタデータ） (2025-02-04T04:11:29Z)
FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation [55.424665700339695]
拡散に基づく音声駆動型アバター手法は近年,高忠実で鮮明で表現力のある結果に注目されている。拡散モデルの様々な蒸留技術が開発されているにもかかわらず, 自然拡散蒸留法では良好な結果が得られないことがわかった。本稿では,FADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation) を提案する。
論文参考訳（メタデータ） (2024-12-22T08:19:22Z)
Relational Diffusion Distillation for Efficient Image Generation [27.127061578093674]
拡散モデルの高い遅延は、コンピューティングリソースの少ないエッジデバイスにおいて、その広範な応用を妨げる。本研究では,拡散モデルの蒸留に適した新しい蒸留法である拡散蒸留(RDD)を提案する。提案したRDDは, 最先端の蒸留蒸留法と比較すると1.47FID減少し, 256倍の高速化を実現した。
論文参考訳（メタデータ） (2024-10-10T07:40:51Z)
Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-10-05T16:41:36Z)
Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。 PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。 PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文参考訳（メタデータ） (2024-10-04T07:05:16Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。 E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳（メタデータ） (2024-05-09T17:59:40Z)
AddSR: Accelerating Diffusion-based Blind Super-Resolution with Adversarial Diffusion Distillation [43.62480338471837]
低分解能入力からの複雑な詳細で鮮明な高分解能画像の再構成における, 安定拡散ショーケースに基づくブラインド超解像法その実用性はしばしば、数千から数百のサンプリングステップの要求に起因して、効率の悪さによって妨げられる。効率の良い逆拡散蒸留 (ADD) にインスパイアされた我々は, 蒸留と制御ネットの両方のアイデアを取り入れることでこの問題に対処する。
論文参考訳（メタデータ） (2024-04-02T08:07:38Z)
LoRA-Enhanced Distillation on Guided Diffusion Models [0.0]
本研究は,ローランド適応 (LoRA) とモデル蒸留を併用して効率よく拡散モデルを圧縮する新しい手法を探求する。その結果, 蒸留プロセスによる推論時間の大幅な短縮と, メモリ消費の約50%の削減が達成された。
論文参考訳（メタデータ） (2023-12-12T00:01:47Z)
Adversarial Diffusion Distillation [18.87099764514747]
逆拡散蒸留(adversarial Diffusion Distillation、ADD)は、1-4ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しい訓練手法である。我々は,大規模なオフザシェルフ画像拡散モデルを教師信号として活用するために,スコア蒸留を用いる。本モデルでは,既存の数ステップ法を1ステップで明らかに上回り,4ステップで最先端拡散モデル(SDXL)の性能に到達する。
論文参考訳（メタデータ） (2023-11-28T18:53:24Z)
ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文参考訳（メタデータ） (2023-07-23T15:10:02Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。