論文の概要: Towards Training One-Step Diffusion Models Without Distillation
- arxiv url: http://arxiv.org/abs/2502.08005v3
- Date: Tue, 27 May 2025 09:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.081602
- Title: Towards Training One-Step Diffusion Models Without Distillation
- Title(参考訳): 蒸留のない1段階拡散モデルの訓練に向けて
- Authors: Mingtian Zhang, Wenlin Chen, Jiajun He, Zijing Ou, José Miguel Hernández-Lobato, Bernhard Schölkopf, David Barber,
- Abstract要約: 我々は,教師のスコア管理を完全に禁止する,新しい研修方法のファミリーを紹介する。
教師の重みによる学生モデルの初期化は依然として重要な課題である。
- 参考スコア(独自算出の注目度): 72.80423908458772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in training one-step diffusion models typically follow a two-stage pipeline: first training a teacher diffusion model and then distilling it into a one-step student model. This process often depends on both the teacher's score function for supervision and its weights for initializing the student model. In this paper, we explore whether one-step diffusion models can be trained directly without this distillation procedure. We introduce a family of new training methods that entirely forgo teacher score supervision, yet outperforms most teacher-guided distillation approaches. This suggests that score supervision is not essential for effective training of one-step diffusion models. However, we find that initializing the student model with the teacher's weights remains critical. Surprisingly, the key advantage of teacher initialization is not due to better latent-to-output mappings, but rather the rich set of feature representations across different noise levels that the teacher diffusion model provides. These insights take us one step closer towards training one-step diffusion models without distillation and provide a better understanding of the roles of teacher supervision and initialization in the distillation process.
- Abstract(参考訳): 最近の1段階拡散モデルの訓練の進歩は、2段階のパイプラインに従うのが一般的である。
このプロセスは、教師の指導のためのスコア関数と、学生モデルの初期化のためのウェイトの両方に依存することが多い。
本稿では, この蒸留法を使わずに, 一段階拡散モデルを直接訓練できるかどうかを考察する。
教師が指導する蒸留法は,教師が指導する蒸留法よりも優れているが,教師の得点管理を完全に禁止する新たな研修方法のファミリーを紹介する。
これは,1段階拡散モデルの効果的なトレーニングには,スコア管理が不可欠ではないことを示唆している。
しかし,教師の重み付けによる学生モデルの初期化は依然として重要な課題であることがわかった。
意外なことに、教師の初期化の鍵となる利点は、より良い潜在出力マッピングによるものではなく、教師拡散モデルが提供する様々なノイズレベルにまたがる特徴表現のリッチなセットである。
これらの知見は, 蒸留を伴わない一段階拡散モデルの訓練に向けて一歩前進し, 蒸留プロセスにおける教師の指導と初期化の役割をよりよく理解する。
関連論文リスト
- Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Warmup-Distill: Bridge the Distribution Mismatch between Teacher and Student before Knowledge Distillation [84.38105530043741]
本稿では, 学生の蒸留を教員の蒸留と整合させて, 蒸留に先立って行うワームアップ蒸留法を提案する。
7つのベンチマークの実験は、ウォームアップ・ディスティルが蒸留に適したウォームアップの学生を提供することを示した。
論文 参考訳(メタデータ) (2025-02-17T12:58:12Z) - Inference-Time Diffusion Model Distillation [59.350789627086456]
本稿では,新しい推論時間蒸留フレームワークであるDistillation++を紹介する。
条件付きサンプリングの最近の進歩に触発されて,本手法は学生モデルサンプリングを近位最適化問題として再放送する。
逆サンプリング中の蒸留最適化を統合し,教師指導とみなすことができる。
論文 参考訳(メタデータ) (2024-12-12T02:07:17Z) - Training on the Test Model: Contamination in Ranking Distillation [14.753216172912968]
蒸留における汚染された教師モデルの効果について検討する。
教師のトレーニングサンプルのごく一部を表すテストデータであっても,汚染が生じることが判明した。
論文 参考訳(メタデータ) (2024-11-04T17:11:14Z) - Distribution Backtracking Builds A Faster Convergence Trajectory for Diffusion Distillation [19.88187051373436]
本研究では,拡散モデルのサンプリング速度を高速化する分散バックトラック蒸留(DisBack)を提案する。
DisBackは既存の蒸留法よりも高速で収束性が高く、ImageNet 64x64データセットのFIDスコアは1.38である。
論文 参考訳(メタデータ) (2024-08-28T17:58:17Z) - On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models [7.062887337934677]
我々は、小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。
事前訓練されたモデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成される性能を達成または超えることが観察された。
論文 参考訳(メタデータ) (2024-04-04T07:38:11Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Why distillation helps: a statistical perspective [69.90148901064747]
知識蒸留は、単純な「学生」モデルの性能を向上させる技術である。
この単純なアプローチは広く有効であることが証明されているが、基本的な問題は未解決のままである。
蒸留が既存の負の鉱業技術をどのように補完し, 極端に多層的検索を行うかを示す。
論文 参考訳(メタデータ) (2020-05-21T01:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。