論文の概要: LIFT and PLACE: A Simple, Stable, and Effective Knowledge Distillation Framework for Lightweight Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.19729v3
- Date: Wed, 27 May 2026 12:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.772305
- Title: LIFT and PLACE: A Simple, Stable, and Effective Knowledge Distillation Framework for Lightweight Diffusion Models
- Title(参考訳): LIFTとPLACE:軽量拡散モデルのためのシンプルで安定かつ効果的な知識蒸留フレームワーク
- Authors: Hyunsoo Han, Sangyeop Yeo, Jaejun Yoo,
- Abstract要約: Linear Fitting based distillation (LIFT)とPiecewise Local Adaptive Coefficient Estimation (PLACE)による粗粒蒸留の枠組み
実験の結果、LIFTとPLACEは拡散空間(イメージ/ラテント)、バックボーン(U-Net/DiT)、タスク(条件/条件)、データセット、さらにはMMDiT(SD3)のようなフローベースモデルにまで拡張できることが示された。
- 参考スコア(独自算出の注目度): 9.025382179940767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that in knowledge distillation for diffusion models, the teacher network's highly complex denoising process - stemming from its substantially larger capacity - poses a significant challenge for the student model to faithfully mimic. To address this problem, we propose a coarse-to-fine distillation framework with LInear FiTtingbased distillation (LIFT) and Piecewise Local Adaptive Coefficient Estimation (PLACE). First, LIFT decomposes the objective into a "coarse" alignment and a "fine" refinement. The student is then trained on coarse alignment before proceeding to hard refinement. Second, PLACE extends LIFT to address spatially non-uniform errors by partitioning outputs into error-based groups, providing locally adaptive guidance. Our experiments show that LIFT and PLACE is effective across diffusion spaces (image/latent), backbones (U-Net/DiT), tasks (unconditional/conditional), datasets, and even extends to flow-based models such as MMDiT (SD3). Furthermore, under extreme compression with a 1.3M-parameter student (only 1.6% of the teacher), conventional KD fails to provide sufficient guidance for stable training, with FID scores often degrading to 50-200+, but our method remains stably convergent and achieves an FID of 15.73.
- Abstract(参考訳): 拡散モデルに対する知識蒸留では、教師ネットワークの非常に複雑な認知過程が、その能力を大幅に増大させることから始まり、学生モデルが忠実に模倣する上で重要な課題となることを実証する。
この問題に対処するため,LInear Fitting based distillation (LIFT) とPiecewise Local Adaptive Coefficient Estimation (PLACE) を用いた粗粒蒸留フレームワークを提案する。
まず、LIFTは目的を「粗い」アライメントと「細い」リファインメントに分解する。
生徒はその後、粗い調整の訓練を受け、その後、ハードリファインメントに進む。
第二に、PLACEはLIFTを拡張して、出力をエラーベースのグループに分割することで、空間的に一様でないエラーに対処し、局所的に適応的なガイダンスを提供する。
実験の結果,LIFT と PLACE は拡散空間 (image/latent) ,バックボーン (U-Net/DiT) ,タスク (unconditional/ Conditional) ,データセット,さらにはMMDiT (SD3) のようなフローベースモデルにまで拡張できることがわかった。
さらに,1.3Mパラメータの学生(教師のわずか1.6%)との極端な圧縮の下では,従来のKDでは安定トレーニングのための十分なガイダンスが得られず,FIDスコアは50~200以上に低下することが多いが,本手法は安定的に収束し,FIDが15.73に達する。
関連論文リスト
- MixSD: Mixed Contextual Self-Distillation for Knowledge Injection [29.7616760417696]
Supervised Fine-tuning (SFT) は言語モデルに新しい知識を注入するために広く使われている。
このことは、人間や外部システムからの微調整対象が、モデルの自動回帰分布から逸脱するためである、と我々は主張する。
分布整合型知識注入のための簡易な外部教師なし手法であるMixSDを提案する。
論文 参考訳(メタデータ) (2026-05-16T07:57:09Z) - Efficient Diffusion Distillation via Embedding Loss [5.036053636785486]
埋め込み損失 (EL) は, 既存の拡散蒸留法を補完する新たな補足損失関数であり, 生成品質を高め, バッチサイズを小さくして訓練を加速する。
提案手法は,非条件生成に1.475,条件生成に1.380のFID値を実現する。
また,本手法は,資源制約環境下での拡散型生成モデルを展開するための,より実用的でスケーラブルなソリューションを提供するため,最大80%のトレーニングイテレーションを短縮する。
論文 参考訳(メタデータ) (2026-04-24T09:16:47Z) - Multimodal Dataset Distillation via Phased Teacher Models [46.18186490102602]
PTM-ST(Phased Teacher Model with Shortcut Trajectory)は、新しいフェーズド蒸留フレームワークである。
PTM-STは最適化振動と相間知識ギャップを著しく軽減することを示す。
我々の手法はFlickr30kとCOCOの最先端のベースラインを一貫して超越している。
論文 参考訳(メタデータ) (2026-03-26T12:38:12Z) - Dual-End Consistency Model [41.982957134224904]
スロー反復サンプリングは拡散モデルとフローベース生成モデルの実践的展開において大きなボトルネックとなる。
本稿では,安定かつ効果的なトレーニングを実現するために,バイタルサブ軌道クラスタを選択するDual-End Consistency Model (DE-CM)を提案する。
提案手法は,ImageNet 256x256データセットの1ステップ生成において,最先端のFIDスコア1.70を達成し,既存のCMベースのワンステップアプローチよりも優れていた。
論文 参考訳(メタデータ) (2026-02-11T11:51:01Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Synthetic Adaptive Guided Embeddings (SAGE): A Novel Knowledge Distillation Method [1.5839621757142595]
本研究では,高学年モデル損失の地域において,動的にトレーニングデータを増強する適応蒸留フレームワークを提案する。
本手法は, 組込み空間における過小評価領域を同定し, 対象とする合成例を生成し, 学習指導を行う。
論文 参考訳(メタデータ) (2025-08-20T15:29:00Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。