Fugu-MT 論文翻訳(概要): SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation

論文の概要: SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation

arxiv url: http://arxiv.org/abs/2403.01505v4
Date: Wed, 05 Mar 2025 11:39:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:39.472117
Title: SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation
Title（参考訳）: SCott:確率整合蒸留による拡散モデルの高速化
Authors: Hongjian Liu, Qingsong Xie, TianXiang Ye, Zhijie Deng, Chen Chen, Shixiang Tang, Xueyang Fu, Haonan Lu, Zheng-jun Zha,
Abstract要約: 本稿では,テキスト・画像の高速生成を実現するために,SCott(Consistency Distillation)を提案する。 SCottは、訓練済みの教師モデルの通常の微分方程式解法に基づくサンプリングプロセスを学生に蒸留する。安定拡散V1.5教師によるMSCOCO-2017 5Kデータセットでは、SCottは2ステップのサンプリングステップを持つ21.9のFIDを達成し、1ステップのInstaFlow (23.4)と4ステップのUFOGen (22.1)を上回ります。
参考スコア（独自算出の注目度）: 74.32186107058382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The iterative sampling procedure employed by diffusion models (DMs) often leads to significant inference latency. To address this, we propose Stochastic Consistency Distillation (SCott) to enable accelerated text-to-image generation, where high-quality and diverse generations can be achieved within just 2-4 sampling steps. In contrast to vanilla consistency distillation (CD) which distills the ordinary differential equation solvers-based sampling process of a pre-trained teacher model into a student, SCott explores the possibility and validates the efficacy of integrating stochastic differential equation (SDE) solvers into CD to fully unleash the potential of the teacher. SCott is augmented with elaborate strategies to control the noise strength and sampling process of the SDE solver. An adversarial loss is further incorporated to strengthen the consistency constraints in rare sampling steps. Empirically, on the MSCOCO-2017 5K dataset with a Stable Diffusion-V1.5 teacher, SCott achieves an FID of 21.9 with 2 sampling steps, surpassing that of the 1-step InstaFlow (23.4) and the 4-step UFOGen (22.1). Moreover, SCott can yield more diverse samples than other consistency models for high-resolution image generation, with up to 16% improvement in a qualified metric.
Abstract（参考訳）: 拡散モデル(DM)による反復サンプリング手順は、しばしば大きな推論遅延を引き起こす。そこで本研究では,高品質で多様な世代を,わずか2～4段階のサンプリングステップで実現可能な,高速なテキスト・画像生成を実現するStochastic Consistency Distillation (SCott)を提案する。教師モデルの通常の微分方程式に基づくサンプリング過程を学生に蒸留するバニラ整合蒸留(CD)とは対照的に、SCottは確率微分方程式(SDE)ソルバをCDに統合して教師のポテンシャルを完全に解き放つ可能性を探究し、有効性を検証する。 SCottは、SDEソルバのノイズ強度とサンプリング過程を制御するための精巧な戦略で拡張されている。対向損失はさらに、希少なサンプリングステップにおける一貫性の制約を強化するために組み込まれている。 MSCOCO-2017 5Kデータセットと安定拡散V1.5の教師を用いて、SCottは2ステップのサンプリングステップを持つ21.9のFIDを達成し、1ステップのInstaFlow (23.4)と4ステップのUFOGen (22.1)を上回った。さらに、SCottは高解像度画像生成のための他の一貫性モデルよりも多彩なサンプルが得られる。

関連論文リスト

Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。 SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文参考訳（メタデータ） (2025-07-24T16:45:05Z)
Learning Few-Step Diffusion Models by Trajectory Distribution Matching [18.229753357571116]
トラジェクティブ・ディストリビュータ・マッチング(TDM)は、トラジェクタ・マッチングとトラジェクタ・マッチングの強さを組み合わせた統合蒸留パラダイムである。我々は,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にする,サンプリングステップ対応の目標を開発する。我々のモデルであるTDMは、様々なバックボーン上で既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2025-03-09T15:53:49Z)
Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。 The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文参考訳（メタデータ） (2025-02-05T07:13:43Z)
Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion [9.8078769718432]
安定拡散モデルのための効率的な量子化フレームワークを提案する。本手法では,キャリブレーションと推論の両プロセスの整合性に対処するシリアル-パラレルキャリブレーションパイプラインを特徴とする。 W4A8量子化設定では、分布類似性と視覚類似性の両方を45%-60%向上させる。
論文参考訳（メタデータ） (2024-12-09T17:00:20Z)
See Further When Clear: Curriculum Consistency Model [20.604239652914355]
本稿では,時間ステップ間で学習の複雑さを安定させ,バランスをとるCCMを提案する。具体的には,各時期の蒸留工程をカリキュラムとみなし,学習の複雑さを定量化するためのピーク信号対雑音比(PSNR)に基づくメトリクスを導入する。 CIFAR-10ではFr't Inception Distance(FID)スコアが1.64、ImageNet 64x64では2.18である。
論文参考訳（メタデータ） (2024-12-09T08:39:01Z)
EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文参考訳（メタデータ） (2024-05-27T05:55:22Z)
Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。 ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文参考訳（メタデータ） (2024-05-22T11:20:32Z)
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文参考訳（メタデータ） (2024-04-21T15:16:05Z)
Trajectory Consistency Distillation: Improved Latent Consistency Distillation by Semi-Linear Consistency Function with Trajectory Mapping [75.72212215739746]
軌道整合性蒸留(TCD)は、軌道整合性と戦略的サンプリングを含む。 TCDは低NFEで画像品質を著しく向上させるが、教師モデルと比較してより詳細な結果が得られる。
論文参考訳（メタデータ） (2024-02-29T13:44:14Z)
Towards Fast Stochastic Sampling in Diffusion Generative Models [22.01769257075573]
拡散モデルは、推論時に遅いサンプル生成に悩まされる。拡張空間における事前学習拡散モデルにおける高速サンプリングのための分割法を提案する。本研究では,スプリッティングの単純適用が高速サンプリングに最適であることを示す。
論文参考訳（メタデータ） (2024-02-11T14:04:13Z)
Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文参考訳（メタデータ） (2023-10-22T05:33:38Z)
Efficient Integrators for Diffusion Generative Models [22.01769257075573]
拡散モデルは、推論時に遅いサンプル生成に悩まされる。事前学習モデルにおけるサンプル生成を高速化するための2つの補完的フレームワークを提案する。本稿では,拡張空間における拡散モデルにおける最良報告性能を実現するハイブリッド手法を提案する。
論文参考訳（メタデータ） (2023-10-11T21:04:42Z)
Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。 CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文参考訳（メタデータ） (2023-10-01T05:07:17Z)
SA-Solver: Stochastic Adams Solver for Fast Sampling of Diffusion Models [66.67616086310662]
拡散確率モデル(DPM)は生成タスクでかなりの成功を収めた。 DPM からのサンプリングは、時間を要する拡散 SDE や ODE の解法と等価であるため、改良された微分方程式解法に基づく多数の高速サンプリング手法が提案されている。拡散SDEを解くための効率の良いAdams法であるSA-of-rを提案する。
論文参考訳（メタデータ） (2023-09-10T12:44:54Z)
Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文参考訳（メタデータ） (2023-05-25T17:59:42Z)
Catch-Up Distillation: You Only Need to Train Once for Accelerating Sampling [11.272881985569326]
本稿では, 速度推定モデルの現在のモーメント出力を前回のモーメント出力と一致させる「キャッチアップ蒸留(CUD)」を提案する。具体的には、CUDは、元の正規微分方程式(ODE)訓練目標を調整し、現在のモーメント出力を、基底真理ラベルと前のモーメント出力の両方に整合させる。 CUDの有効性を示すため、我々はCIFAR-10、MNIST、ImageNet-64で徹底的なアブレーションと比較実験を行った。
論文参考訳（メタデータ） (2023-05-18T07:23:12Z)
ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。 ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。 ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文参考訳（メタデータ） (2022-07-13T17:45:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。