Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
Abstractの概要
本論文は、Distribution Matching Distillation(DMD)を離散的なアンカーベースの監督から連続時間最適化へ拡張する、少ステップ拡散蒸留フレームワーク「Continuous-Time Distribution Matching(CDM)」を提案している。本手法は2つの主要な設計を導入する:(1) シミュレーション長とタイムステップを固定された推論スケジュールではなく(0,1]からランダムにサンプリングする動的連続学習スケジュール、(2) 学生モデルの予測速度場に沿った一次オイラー外挿によって生成されるオフトラジェクトリ潜在変数を監督する連続時間アライメント損失。著者らは、固定された推論タイムステップへの厳密なアライメントは不必要に制約的であり、分布マッチングは完全な連続時間領域に渡って適用可能であると主張している。SD3-MediumおよびLongcat-Imageにおける4ステップテキスト画像生成の実験では、補助的なGANや報酬モデル目的関数を必要とせずに、複数の指標で既存の少ステップベースラインを上回る改善が示された。
新規性
主な新規性は、DMDスタイルの少ステップ拡散蒸留を離散的なアンカーベースの監督から連続時間定式化へ拡張した点であり、著者らはこれが初めてのそのような移行であると主張している。さらに、速度ベースのオイラー外挿によって生成されたオフトラジェクトリ状態を監督する連続時間分布マッチング損失(ℒ_CDM)を導入し、少ステップサンプリングにおける大ステップ積分時に生じる打ち切り誤差のドリフトを明示的に対象としている。
成果
SD3-Mediumにおいて4 NFEでCDMは、比較された蒸留手法の中でAesthetic(6.075)、DPGBench(85.26)、PickScore(21.95)、HPSv3(9.561)で最高スコアを達成し、CLIPScoreでも競争力を維持している。Longcat-Imageにおいて4 NFEでは、Aesthetic(5.919)、DPGBench(88.35)、PickScore(21.53)、HPSv3(10.65)で最高値を達成した。アブレーション実験により、3つの構成要素すべて(CA+DM+CDM)を含む完全な目的関数が部分的な変種を上回ること、および動的スケジューリングと速度駆動オフトラジェクトリ監督の組み合わせが固定スケジュールやガウシアン摂動の代替手法を上回ることが確認された。
論文の注目点
- CDMは固定された離散的な蒸留アンカーを動的連続時間スケジュールに置き換え、少数の事前定義されたセットではなく(0,1]からサンプリングされた任意のタイムステップで学生モデルに分布マッチング監督を適用し、著者らはこのデカップリングが生成品質を向上させることを実証的に示している。
- 提案されたCDM損失は速度外挿された潜在変数に対してオフトラジェクトリ分布マッチングを実行し、少ステップサンプリングにおける大きなオイラー積分ステップから生じる打ち切り誤差を対象とし、アブレーション実験ではオントラジェクトリのみの監督やガウシアン再ノイズ化の代替手法を上回ることが示されている。
- SD3-MediumおよびLongcat-Imageにおいて4 NFEで、CDMはGANや報酬モデルの補助目的関数に依存することなく、Aesthetic、DPGBench、PickScore、HPSv3指標で既存の画像不要ベースライン(DMD2、D-DMD、TDM)を上回っている。
参考リンク
- arXiv: https://arxiv.org/abs/2605.06376v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.06376v1
- Hugging Face Papers: https://huggingface.co/papers/2605.06376
- GitHub: https://github.com/byliutao/CDM
- Project: https://byliutao.github.io/cdm_page/