論文の概要: Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis
- arxiv url: http://arxiv.org/abs/2507.18569v1
- Date: Thu, 24 Jul 2025 16:45:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.13391
- Title: Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis
- Title(参考訳): 効率的な画像合成とビデオ合成に向けた拡散蒸留の逆分布マッチング
- Authors: Yanzuo Lu, Yuxi Ren, Xin Xia, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Andy J. Ma, Xiaohua Xie, Jian-Huang Lai,
- Abstract要約: 本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
- 参考スコア(独自算出の注目度): 65.77083310980896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution Matching Distillation (DMD) is a promising score distillation technique that compresses pre-trained teacher diffusion models into efficient one-step or multi-step student generators. Nevertheless, its reliance on the reverse Kullback-Leibler (KL) divergence minimization potentially induces mode collapse (or mode-seeking) in certain applications. To circumvent this inherent drawback, we propose Adversarial Distribution Matching (ADM), a novel framework that leverages diffusion-based discriminators to align the latent predictions between real and fake score estimators for score distillation in an adversarial manner. In the context of extremely challenging one-step distillation, we further improve the pre-trained generator by adversarial distillation with hybrid discriminators in both latent and pixel spaces. Different from the mean squared error used in DMD2 pre-training, our method incorporates the distributional loss on ODE pairs collected from the teacher model, and thus providing a better initialization for score distillation fine-tuning in the next stage. By combining the adversarial distillation pre-training with ADM fine-tuning into a unified pipeline termed DMDX, our proposed method achieves superior one-step performance on SDXL compared to DMD2 while consuming less GPU time. Additional experiments that apply multi-step ADM distillation on SD3-Medium, SD3.5-Large, and CogVideoX set a new benchmark towards efficient image and video synthesis.
- Abstract(参考訳): 分散マッチング蒸留(Dis Distribution Matching Distillation, DMD)は、事前学習した教師拡散モデルを効率的な1段階または複数段階の学生生成装置に圧縮する、有望なスコア蒸留技術である。
それでも、KL(Kulback-Leibler)の逆の分散化への依存は、特定のアプリケーションにおいてモード崩壊(あるいはモード探索)を引き起こす可能性がある。
この固有の欠点を回避するために,拡散式識別器を利用した新しいフレームワークであるAdversarial Distribution Matching (ADM)を提案する。
極めて難易度の高い一段階蒸留では,潜伏空間と画素空間の両方でハイブリッド判別器を併用した逆蒸留により,事前学習発電機をさらに改良する。
DMD2事前学習で使用される平均2乗誤差とは違って,本手法では教師モデルから収集したODEペアの分布損失を考慮し,次の段階での蒸留微調整のためのより良い初期化を提供する。
DMDXは, 逆蒸留とAMD微調整を併用して, SDXLの1ステップ性能をDMD2と比較し, GPU時間が少なく, SDXLの1ステップ性能に優れていた。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
関連論文リスト
- Scale-wise Distillation of Diffusion Models [26.372118630648338]
SwDは拡散モデルのためのスケールワイズ蒸留フレームワークである。
拡散に基づく数ステップジェネレータに、次世代の予測アイデアを効果的に活用する。
論文 参考訳(メタデータ) (2025-03-20T17:54:02Z) - DDIL: Diversity Enhancing Diffusion Distillation With Imitation Learning [57.3467234269487]
拡散モデルは生成モデリング(例:text-to-image)に優れるが、サンプリングには複数の遅延ネットワークパスが必要である。
プログレッシブ蒸留や一貫性蒸留は、パスの数を減らして将来性を示す。
DDILの一貫性は, プログレッシブ蒸留 (PD), 潜在整合モデル (LCM) および分散整合蒸留 (DMD2) のベースラインアルゴリズムにより向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T18:21:47Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z) - Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation [24.236841051249243]
蒸留法は、モデルをマルチショットからシングルステップ推論にシフトすることを目的としている。
ADDの限界を克服する新しい蒸留法であるLADD(Latent Adversarial Diffusion Distillation)を導入する。
ピクセルベースのADDとは対照的に、LADDは事前訓練された潜伏拡散モデルから生成的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-18T17:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。