論文の概要: Distilling Diversity and Control in Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.10637v4
- Date: Mon, 10 Nov 2025 15:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.122561
- Title: Distilling Diversity and Control in Diffusion Models
- Title(参考訳): 拡散モデルにおける蒸留の多様性と制御
- Authors: Rohit Gandikota, David Bau,
- Abstract要約: 蒸留拡散モデルは、はるかに少ない時間ステップで画像を生成するが、同じプロンプトから複数の出力を生成する際にサンプルの多様性が低下する。
本研究は, 蒸留モデルに切り替える前に, 最初の臨界時間段階のみに基本モデルを用いたハイブリッド手法である多様性蒸留を導入する。
蒸留モデルにおいて,最初の段階が多様性のボトルネックに集中する理由を示す因果検証と理論的支援の両方を提供する。
- 参考スコア(独自算出の注目度): 26.21070624480139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilled diffusion models generate images in far fewer timesteps but suffer from reduced sample diversity when generating multiple outputs from the same prompt. To understand this phenomenon, we first investigate whether distillation damages concept representations by examining if the required diversity is properly learned. Surprisingly, distilled models retain the base model's representational structure: control mechanisms like Concept Sliders and LoRAs transfer seamlessly without retraining, and SliderSpace analysis reveals distilled models possess variational directions needed for diversity yet fail to activate them. This redirects our investigation to understanding how the generation dynamics differ between base and distilled models. Using $\hat{\mathbf{x}}_{0}$ trajectory visualization, we discover distilled models commit to their final image structure almost immediately at the first timestep, while base models distribute structural decisions across many steps. To test whether this first-step commitment causes the diversity loss, we introduce diversity distillation, a hybrid approach using the base model for only the first critical timestep before switching to the distilled model. This single intervention restores sample diversity while maintaining computational efficiency. We provide both causal validation and theoretical support showing why the very first timestep concentrates the diversity bottleneck in distilled models. Our code and data are available at https://distillation.baulab.info/
- Abstract(参考訳): 蒸留拡散モデルは、はるかに少ない時間ステップで画像を生成するが、同じプロンプトから複数の出力を生成する際にサンプルの多様性が低下する。
この現象を理解するために、まず蒸留が概念表現を損なうかどうかを、必要な多様性を適切に学習するかどうかを調べる。
意外なことに、蒸留されたモデルはベースモデルの表現構造を保持しており、概念スライダやロラスのような制御機構は再トレーニングなしでシームレスに伝達される。
このことは、生成ダイナミクスがベースモデルと蒸留モデルの間でどのように異なるかを理解するために、我々の研究をリダイレクトする。
$\hat{\mathbf{x}}_{0}$ trajectory visualization を用いて、蒸留されたモデルが最終画像構造にコミットしていることを発見し、ベースモデルは多くのステップで構造決定を分散する。
この第1段階のコミットメントが多様性の損失を引き起こすかどうかを検証するため、蒸留モデルに切り替える前に、基本モデルを用いたハイブリッドアプローチであるダイバーシティ蒸留を導入する。
この単一の介入は、計算効率を維持しながらサンプルの多様性を回復する。
蒸留モデルにおいて,最初の段階が多様性のボトルネックに集中する理由を示す因果検証と理論的支援の両方を提供する。
私たちのコードとデータはhttps://distillation.baulab.info/で公開されています。
関連論文リスト
- Transition Matching Distillation for Fast Video Generation [63.1049790376783]
本稿では,ビデオ拡散モデルを効率の良い数ステップ生成器に蒸留するための新しいフレームワークであるTransition Matching Distillation (TMD)を提案する。
TMDは拡散モデルの多段階認知軌道と数段階の確率遷移過程とを一致させる。
TMDは、生成速度と視覚的品質の間の柔軟性と強力なトレードオフを提供する。
論文 参考訳(メタデータ) (2026-01-14T21:30:03Z) - Score Distillation of Flow Matching Models [67.86066177182046]
我々は、Score Identity Distillation (SiD) を事前訓練されたテキスト対画像フローマッチングモデルに拡張する。
SiDは、データフリーとデータアシストの両方の設定で、これらのモデルですぐに使える。
これは、スコア蒸留がテキストと画像のフローマッチングモデルに広く適用されるという最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2025-09-29T17:45:48Z) - Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation [2.3359837623080613]
本研究は,拡散訓練を生成前訓練の一形態と見なすことができることを示す。
パラメータの85%が凍結した事前学習モデルの微調整により、ワンステップ生成モデルを作成する。
論文 参考訳(メタデータ) (2025-06-11T03:55:26Z) - Diversity-Driven Generative Dataset Distillation Based on Diffusion Model with Self-Adaptive Memory [33.38900857290244]
この問題を解決するために,拡散モデルに基づく多様性駆動型生成データセット蒸留法を提案する。
蒸留されたデータセットと実際のデータセットの分布を一致させる自己適応メモリを導入し、代表性を評価する。
我々の手法は、ほとんどの状況で既存の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-26T03:48:56Z) - MGD$^3$: Mode-Guided Dataset Distillation using Diffusion Models [50.2406741245418]
本稿では,事前学習した拡散モデルを利用したモード誘導拡散モデルを提案する。
提案手法は,異なるデータモードを識別するモード発見,クラス内多様性を高めるモード誘導,および合成試料中のアーティファクトを緩和するモード誘導という3段階のデータセットの多様性に対処する。
本手法は, 蒸留損失を伴う微調整拡散モデルの必要性を排除し, 計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-25T03:40:23Z) - Antidistillation Sampling [98.87756003405627]
拡張推論トレースを生成するモデルは、モデル蒸留を容易にするリッチトークンシーケンスを不注意に生成する。
この脆弱性を認識したモデル所有者は、モデル性能を損なうことなく蒸留の有効性を制限するサンプリング戦略を求めることができる。
抗蒸留サンプリングは、モデルの実用性を保ちながら、蒸留に著しく効果の低い推理トレースをレンダリングする。
論文 参考訳(メタデータ) (2025-04-17T17:54:14Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - Inference-Time Diffusion Model Distillation [59.350789627086456]
本稿では,新しい推論時間蒸留フレームワークであるDistillation++を紹介する。
条件付きサンプリングの最近の進歩に触発されて,本手法は学生モデルサンプリングを近位最適化問題として再放送する。
逆サンプリング中の蒸留最適化を統合し,教師指導とみなすことができる。
論文 参考訳(メタデータ) (2024-12-12T02:07:17Z) - DDIL: Improved Diffusion Distillation With Imitation Learning [57.3467234269487]
拡散モデルは生成モデリング(例:text-to-image)に優れるが、サンプリングには複数の遅延ネットワークパスが必要である。
プログレッシブ蒸留や一貫性蒸留は、パスの数を減らして将来性を示す。
DDILの一貫性は, プログレッシブ蒸留 (PD), 潜在整合モデル (LCM) および分散整合蒸留 (DMD2) のベースラインアルゴリズムにより向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T18:21:47Z) - Accelerating Diffusion Models with One-to-Many Knowledge Distillation [35.130782477699704]
我々は,1つの教師拡散モデルを複数の学生拡散モデルに蒸留する1対多の知識蒸留(O2MKD)を導入する。
CIFAR10, LSUN Church, CelebA-HQ with DDPM and COCO30K with Stable Diffusion 実験の結果, O2MKD は従来の知識蒸留法や高速サンプリング法にも適用可能であることが示された。
論文 参考訳(メタデータ) (2024-10-05T15:10:04Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Variational Distillation of Diffusion Policies into Mixture of Experts [26.315682445979302]
本研究は, 拡散反応をエキスパート混合体 (MoE) に蒸留する新しい方法である変動拡散蒸留 (VDD) を導入する。
拡散モデル(英: Diffusion Models)は、複雑なマルチモーダル分布を正確に学習し、表現する能力があるため、生成モデリングにおける現在の最先端技術である。
VDDは、事前学習した拡散モデルをMoEモデルに蒸留し、拡散モデルの表現性を混合モデルの利点と組み合わせる最初の方法である。
論文 参考訳(メタデータ) (2024-06-18T12:15:05Z) - Plug-and-Play Diffusion Distillation [14.359953671470242]
誘導拡散モデルのための新しい蒸留手法を提案する。
オリジナルのテキスト・ツー・イメージモデルが凍結されている間、外部の軽量ガイドモデルがトレーニングされる。
提案手法は,クラス化なしガイド付きラテント空間拡散モデルの推論をほぼ半減することを示す。
論文 参考訳(メタデータ) (2024-06-04T04:22:47Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Diversity Matters When Learning From Ensembles [20.05842308307947]
深層アンサンブルは、予測精度とキャリブレーションの両方において、大規模な画像分類タスクにおいて優れている。
訓練が簡単であるにもかかわらず、ディープアンサンブルの計算とメモリコストは、その実行可能性を制限する。
本稿では,このギャップを減らすための簡単な手法,すなわち蒸留した性能を全アンサンブルに近づける手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T03:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。