論文の概要: From Structure to Detail: Hierarchical Distillation for Efficient Diffusion Model
- arxiv url: http://arxiv.org/abs/2511.08930v1
- Date: Thu, 13 Nov 2025 01:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.307498
- Title: From Structure to Detail: Hierarchical Distillation for Efficient Diffusion Model
- Title(参考訳): 構造から詳細へ:効率的な拡散モデルのための階層的蒸留
- Authors: Hanbo Cheng, Peng Wang, Kaixiang Lei, Qi Li, Zhen Zou, Pengfei Hu, Jun Du,
- Abstract要約: 軌道ベースおよび分布ベースのステップ蒸留法は解決策を提供する。
軌道ベース法は地球構造を保ちながら「ロッキー圧縮機」として機能する
我々はそれらを新しい階層蒸留フレームワークの相乗的コンポーネントに再キャストする。
- 参考スコア(独自算出の注目度): 18.782919607372328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inference latency of diffusion models remains a critical barrier to their real-time application. While trajectory-based and distribution-based step distillation methods offer solutions, they present a fundamental trade-off. Trajectory-based methods preserve global structure but act as a "lossy compressor", sacrificing high-frequency details. Conversely, distribution-based methods can achieve higher fidelity but often suffer from mode collapse and unstable training. This paper recasts them from independent paradigms into synergistic components within our novel Hierarchical Distillation (HD) framework. We leverage trajectory distillation not as a final generator, but to establish a structural ``sketch", providing a near-optimal initialization for the subsequent distribution-based refinement stage. This strategy yields an ideal initial distribution that enhances the ceiling of overall performance. To further improve quality, we introduce and refine the adversarial training process. We find standard discriminator structures are ineffective at refining an already high-quality generator. To overcome this, we introduce the Adaptive Weighted Discriminator (AWD), tailored for the HD pipeline. By dynamically allocating token weights, AWD focuses on local imperfections, enabling efficient detail refinement. Our approach demonstrates state-of-the-art performance across diverse tasks. On ImageNet $256\times256$, our single-step model achieves an FID of 2.26, rivaling its 250-step teacher. It also achieves promising results on the high-resolution text-to-image MJHQ benchmark, proving its generalizability. Our method establishes a robust new paradigm for high-fidelity, single-step diffusion models.
- Abstract(参考訳): 拡散モデルの推論レイテンシは、リアルタイムアプリケーションにとって依然として重要な障壁である。
軌道ベースおよび分布ベースのステップ蒸留法は解を提供するが、基本的なトレードオフが提示される。
軌道に基づく手法は、グローバルな構造を保ちながら、高周波の詳細を犠牲にする「ロッキー圧縮機」として機能する。
逆に、分布に基づく手法は高い忠実性を達成することができるが、しばしばモード崩壊と不安定な訓練に悩まされる。
本稿では,これらを独立パラダイムから新たな階層蒸留(HD)フレームワークの相乗的コンポーネントに再キャストする。
最終生成物としてではなく, 最終生成物としてトラジェクトリー蒸留を利用するとともに, 構造的「スケッチ」を確立することにより, その後の分布ベース精製段階において, ほぼ最適初期化を実現する。
この戦略は、全体的な性能の天井を強化する理想的な初期分布をもたらす。
品質をさらに向上するため、敵の訓練プロセスを導入・改善する。
標準的な判別器構造は、既に高品質な発電機を精製するのに効果がない。
これを解決するために、HDパイプラインに適したAdaptive Weighted Discriminator (AWD)を導入する。
トークン重量を動的に割り当てることによって、AWDは局所的な欠陥に焦点を当て、より効率的な詳細精細化を可能にする。
我々の手法は、様々なタスクにまたがって最先端のパフォーマンスを示す。
ImageNet $256\times256$では、私たちのシングルステップモデルは250ステップの教師に匹敵する2.26のFIDを達成した。
また、高解像度のテキスト・ツー・イメージMJHQベンチマークの有望な結果を達成し、その一般化性を証明する。
提案手法は高忠実な単一ステップ拡散モデルのためのロバストな新しいパラダイムを確立する。
関連論文リスト
- Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling [26.913398550088477]
クープマン蒸留モデル(Koopman Distillation Model, KDM)は, クープマン理論に基づく新しいオフライン蒸留手法である。
KDMは、学習された線形作用素がそれらを前方に伝播する埋め込み空間にノイズのある入力を符号化し、続いてクリーンなサンプルを再構成するデコーダを符号化する。
KDMは標準のオフライン蒸留ベンチマークで高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-05-19T16:59:47Z) - Efficient Generative Model Training via Embedded Representation Warmup [12.485320863366411]
生成モデルは基本的な課題に直面し、高いレベルのセマンティック概念と低レベルの合成の詳細を同時に学ばなければならない。
基本的2相学習フレームワークである組込み表現ワームアップを提案する。
このフレームワークは,REPAのような単一位相法と比較して,FID=1.41に達するために350エポックで11.5$times$の高速化を実現している。
論文 参考訳(メタデータ) (2025-04-14T12:43:17Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。