論文の概要: WaDi: Weight Direction-aware Distillation for One-step Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.08258v1
- Date: Mon, 09 Mar 2026 11:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.838401
- Title: WaDi: Weight Direction-aware Distillation for One-step Image Synthesis
- Title(参考訳): WaDi:一段階画像合成のための軽量方向認識蒸留
- Authors: Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang,
- Abstract要約: 最近の研究は、多段階拡散を1段階発生器に蒸留することで推論を加速している。
我々は,一段階の生徒と多段階の教師のU-Net/DiT体重変化を分析した。
本稿では, 1段階拡散蒸留に適したパラメータ効率の高いアダプタであるLoRaD(LoRaD)を提案する。
- 参考スコア(独自算出の注目度): 25.65170574291749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive performance of diffusion models such as Stable Diffusion (SD) in image generation, their slow inference limits practical deployment. Recent works accelerate inference by distilling multi-step diffusion into one-step generators. To better understand the distillation mechanism, we analyze U-Net/DiT weight changes between one-step students and their multi-step teacher counterparts. Our analysis reveals that changes in weight direction significantly exceed those in weight norm, highlighting it as the key factor during distillation. Motivated by this insight, we propose the Low-rank Rotation of weight Direction (LoRaD), a parameter-efficient adapter tailored to one-step diffusion distillation. LoRaD is designed to model these structured directional changes using learnable low-rank rotation matrices. We further integrate LoRaD into Variational Score Distillation (VSD), resulting in Weight Direction-aware Distillation (WaDi)-a novel one-step distillation framework. WaDi achieves state-of-the-art FID scores on COCO 2014 and COCO 2017 while using only approximately 10% of the trainable parameters of the U-Net/DiT. Furthermore, the distilled one-step model demonstrates strong versatility and scalability, generalizing well to various downstream tasks such as controllable generation, relation inversion, and high-resolution synthesis.
- Abstract(参考訳): 画像生成における安定拡散(SD)のような拡散モデルの顕著な性能にもかかわらず、その遅い推論は実用的な展開を制限する。
最近の研究は、多段階拡散を1段階発生器に蒸留することで推論を加速している。
蒸留メカニズムをよりよく理解するために,一段階の生徒と多段階の教師のU-Net/DiT重量変化を分析した。
分析の結果, 重量方向の変化は重量標準値よりも有意に大きく, 蒸留における重要な要因として強調された。
この知見により, 1段階拡散蒸留に適したパラメータ効率の高いアダプタであるLoRaD (Lo-rank Rotation of weight Direction) を提案する。
LoRaDは、学習可能なローランク回転行列を用いて、これらの構造化方向変化をモデル化するように設計されている。
さらに,我々はLoRaDをVSDに統合し,新しい一段階蒸留フレームワークであるウェイディ (WaDi) の重量方向認識蒸留を行った。
WaDiは、U-Net/DiTのトレーニング可能なパラメータの約10%を使用しながら、COCO 2014とCOCO 2017で最先端のFIDスコアを達成している。
さらに, 蒸留ワンステップモデルでは, 高い汎用性と拡張性を示し, 制御可能生成, 関係逆転, 高分解能合成など, 様々な下流タスクを一般化する。
関連論文リスト
- Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。
提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。
SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文 参考訳(メタデータ) (2025-07-24T16:45:05Z) - Distilling Diversity and Control in Diffusion Models [26.21070624480139]
蒸留拡散モデルは、はるかに少ない時間ステップで画像を生成するが、同じプロンプトから複数の出力を生成する際にサンプルの多様性が低下する。
本研究は, 蒸留モデルに切り替える前に, 最初の臨界時間段階のみに基本モデルを用いたハイブリッド手法である多様性蒸留を導入する。
蒸留モデルにおいて,最初の段階が多様性のボトルネックに集中する理由を示す因果検証と理論的支援の両方を提供する。
論文 参考訳(メタデータ) (2025-03-13T17:59:56Z) - DDIL: Diversity Enhancing Diffusion Distillation With Imitation Learning [57.3467234269487]
拡散モデルは生成モデリング(例:text-to-image)に優れるが、サンプリングには複数の遅延ネットワークパスが必要である。
プログレッシブ蒸留や一貫性蒸留は、パスの数を減らして将来性を示す。
DDILの一貫性は, プログレッシブ蒸留 (PD), 潜在整合モデル (LCM) および分散整合蒸留 (DMD2) のベースラインアルゴリズムにより向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T18:21:47Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。