論文の概要: Learning Few-Step Diffusion Models by Trajectory Distribution Matching
- arxiv url: http://arxiv.org/abs/2503.06674v2
- Date: Wed, 12 Mar 2025 12:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 12:14:38.520027
- Title: Learning Few-Step Diffusion Models by Trajectory Distribution Matching
- Title(参考訳): 軌道分布マッチングによるフットステップ拡散モデルの学習
- Authors: Yihong Luo, Tianyang Hu, Jiacheng Sun, Yujun Cai, Jing Tang,
- Abstract要約: トラジェクティブ・ディストリビュータ・マッチング(TDM)は、トラジェクタ・マッチングとトラジェクタ・マッチングの強さを組み合わせた統合蒸留パラダイムである。
我々は,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にする,サンプリングステップ対応の目標を開発する。
我々のモデルであるTDMは、様々なバックボーン上で既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 18.229753357571116
- License:
- Abstract: Accelerating diffusion model sampling is crucial for efficient AIGC deployment. While diffusion distillation methods -- based on distribution matching and trajectory matching -- reduce sampling to as few as one step, they fall short on complex tasks like text-to-image generation. Few-step generation offers a better balance between speed and quality, but existing approaches face a persistent trade-off: distribution matching lacks flexibility for multi-step sampling, while trajectory matching often yields suboptimal image quality. To bridge this gap, we propose learning few-step diffusion models by Trajectory Distribution Matching (TDM), a unified distillation paradigm that combines the strengths of distribution and trajectory matching. Our method introduces a data-free score distillation objective, aligning the student's trajectory with the teacher's at the distribution level. Further, we develop a sampling-steps-aware objective that decouples learning targets across different steps, enabling more adjustable sampling. This approach supports both deterministic sampling for superior image quality and flexible multi-step adaptation, achieving state-of-the-art performance with remarkable efficiency. Our model, TDM, outperforms existing methods on various backbones, such as SDXL and PixArt-$\alpha$, delivering superior quality and significantly reduced training costs. In particular, our method distills PixArt-$\alpha$ into a 4-step generator that outperforms its teacher on real user preference at 1024 resolution. This is accomplished with 500 iterations and 2 A800 hours -- a mere 0.01% of the teacher's training cost. In addition, our proposed TDM can be extended to accelerate text-to-video diffusion. Notably, TDM can outperform its teacher model (CogVideoX-2B) by using only 4 NFE on VBench, improving the total score from 80.91 to 81.65. Project page: https://tdm-t2x.github.io/
- Abstract(参考訳): 高速拡散モデルサンプリングはAIGCの効率的な展開に不可欠である。
拡散蒸留法(分散マッチングと軌跡マッチングに基づく)はサンプリングを1ステップに短縮するが、テキスト・ツー・イメージ生成のような複雑なタスクでは不足する。
速度と品質のバランスは良くないが、既存のアプローチでは、分散マッチングはマルチステップサンプリングの柔軟性に欠ける。
このギャップを埋めるために, トラジェクティブ・ディストリビュータ・マッチング (TDM) による数段階拡散モデルの学習を提案する。
本手法では, 学生の軌跡と教師の分布レベルを一致させることにより, データフリースコア蒸留の目標を導出する。
さらに,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にするサンプリングステップ認識目的の開発を行う。
このアプローチは、画像品質の優れた決定論的サンプリングとフレキシブルな多段階適応の両方をサポートし、高い効率で最先端の性能を達成する。
我々のモデルであるTDMは、SDXLやPixArt-$\alpha$など、様々なバックボーン上の既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減しています。
具体的には、PixArt-$\alpha$を4ステップのジェネレータに蒸留し、1024の解像度で実際のユーザの好みを上回ります。
これは500回のイテレーションと2つのA800時間 -- 教師のトレーニングコストの0.01%に過ぎません。
さらに,テキスト間拡散を加速するために提案したTDMを拡張できる。
特にTDMは、VBenchで4 NFEしか使用せず、総得点を80.91から81.65に改善することで、教師モデル(CogVideoX-2B)より優れている。
プロジェクトページ: https://tdm-t2x.github.io/
関連論文リスト
- DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization [50.30051934609654]
本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
論文 参考訳(メタデータ) (2024-12-20T09:07:36Z) - Accelerating Video Diffusion Models via Distribution Matching [26.475459912686986]
本研究は, 拡散蒸留と分散マッチングのための新しい枠組みを導入する。
提案手法は, 事前学習した拡散モデルをより効率的な数ステップ生成器に蒸留することに焦点を当てる。
ビデオGAN損失と新しい2Dスコア分布マッチング損失の組合せを利用して、高品質なビデオフレームを生成する可能性を実証する。
論文 参考訳(メタデータ) (2024-12-08T11:36:32Z) - TLCM: Training-efficient Latent Consistency Model for Image Generation with 2-8 Steps [12.395969703425648]
潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。
本稿では,これらの課題を克服するために,学習効率の高い遅延一貫性モデル(TLCM)を提案する。
A100 GPUでのトレーニング時間はわずか70時間で、SDXLから蒸留した3ステップのTLCMは、33.68のCLIPスコアと、MSCOCO-2017 5Kベンチマークで5.97の美的スコアを達成した。
論文 参考訳(メタデータ) (2024-06-09T12:55:50Z) - Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。
DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。
提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文 参考訳(メタデータ) (2024-05-31T11:14:12Z) - EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。
本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文 参考訳(メタデータ) (2024-05-27T05:55:22Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。