論文の概要: Why Are DMD Students Lazy? Understanding the Copying Behavior in Few-Step Distillation
- arxiv url: http://arxiv.org/abs/2606.02237v1
- Date: Mon, 01 Jun 2026 13:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.10707
- Title: Why Are DMD Students Lazy? Understanding the Copying Behavior in Few-Step Distillation
- Title(参考訳): DMD学生はなぜ怠けているのか?
- Authors: Shucheng Li, Iolo Jones, Alexander Tong, Michael M. Bronstein,
- Abstract要約: 分散整合蒸留 (DMD) は、全てのスケールでノイズ分布を整列することにより、事前学習した拡散モデルを効率的な数ステップ生成器に圧縮する。
意外なことに、高次元環境では、蒸留された学生が、教師のオリジナルのノイズデータペアリングを自然に再現することが、私たちがコピーと呼ぶ現象であることがわかった。
- 参考スコア(独自算出の注目度): 66.15462638744619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution Matching Distillation (DMD) compresses pretrained diffusion models into efficient few-step generators by aligning their noised distributions across all scales. In principle, such distribution-level supervision remains agnostic to specific noise-data pairings of the teacher; this provides the student the freedom to remap latent noise, a behavior consistently observed in low-dimensional settings. Surprisingly, we find that in high-dimensional settings, distilled students spontaneously reproduce the original noise-data pairings of the teacher, a phenomenon we term copying. We demonstrate that copying is neither a byproduct of adversarial objectives nor a result of teacher memorization. Instead, our evidence suggests that copying is an emergent property arising from the limited geometric freedom of the student model during high-dimensional distillation.
- Abstract(参考訳): 分散整合蒸留 (DMD) は、全てのスケールでノイズ分布を整列することにより、事前学習した拡散モデルを効率的な数ステップ生成器に圧縮する。
原則として、そのような分布レベルの監督は教師の特定のノイズデータペアリングに依存しない。
意外なことに、高次元環境では、蒸留された学生が、教師のオリジナルのノイズデータペアリングを自然に再現することが、私たちがコピーと呼ぶ現象であることがわかった。
コピーは相手の目的の副産物でもなく,教師の暗記の結果でもないことを実証する。
その代わり、我々の証拠は、複写が高次元蒸留における学生モデルの限られた幾何学的自由から生じる創発的な性質であることを示唆している。
関連論文リスト
- Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine [60.669081685261965]
拡散モデルは、顕著な品質で高次元データを生成する。
彼らのトレーニングがいかに効率的にスコア関数を学習するかは理論的には説明がつかないままである。
我々はこの原理をScore-induced Latent Diffusion (SiLD)として定式化する。
論文 参考訳(メタデータ) (2026-05-16T16:51:10Z) - Knowledge Distillation of Uncertainty using Deep Latent Factor Model [10.148306002388196]
ガウス蒸留と呼ばれる新しい流通蒸留法を導入する。
これは、Dep Latent Factor Model (DLF)と呼ばれる特殊なガウス過程による教師のアンサンブルの分布を推定する。
複数のベンチマークデータセットを用いて,提案したガウス蒸留が既存のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-10-22T06:46:59Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - Distribution Backtracking Builds A Faster Convergence Trajectory for Diffusion Distillation [19.88187051373436]
本研究では,拡散モデルのサンプリング速度を高速化する分散バックトラック蒸留(DisBack)を提案する。
DisBackは既存の蒸留法よりも高速で収束性が高く、ImageNet 64x64データセットのFIDスコアは1.38である。
論文 参考訳(メタデータ) (2024-08-28T17:58:17Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Teacher's pet: understanding and mitigating biases in distillation [61.44867470297283]
いくつかの研究により、蒸留によって学生の全体的なパフォーマンスが著しく向上することが示されている。
しかし、これらのゲインはすべてのデータサブグループに均一なのでしょうか?
蒸留が特定の部分群の性能に悪影響を及ぼすことを示す。
信頼性の低いサブグループに対して,教師の影響を和らげる手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T13:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。