論文の概要: SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation
- arxiv url: http://arxiv.org/abs/2506.00523v1
- Date: Sat, 31 May 2025 11:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.176003
- Title: SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation
- Title(参考訳): SenseFlow:フローベースのテキストと画像の蒸留のための分散マッチングのスケーリング
- Authors: Xingtong Ge, Xin Zhang, Tongda Xu, Yi Zhang, Xinjie Zhang, Yan Wang, Jun Zhang,
- Abstract要約: 分散マッチング蒸留 (DMD) は, 安定拡散 (SD) 1.5 などのテキスト・画像拡散モデルに適用されている。
しかし、バニラMDDはSD 3.5やFLUXのような大規模フローベースのテキスト・ツー・イメージモデルにおいて収束困難に悩まされている。
- 参考スコア(独自算出の注目度): 12.842428916585217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Distribution Matching Distillation (DMD) has been successfully applied to text-to-image diffusion models such as Stable Diffusion (SD) 1.5. However, vanilla DMD suffers from convergence difficulties on large-scale flow-based text-to-image models, such as SD 3.5 and FLUX. In this paper, we first analyze the issues when applying vanilla DMD on large-scale models. Then, to overcome the scalability challenge, we propose implicit distribution alignment (IDA) to regularize the distance between the generator and fake distribution. Furthermore, we propose intra-segment guidance (ISG) to relocate the timestep importance distribution from the teacher model. With IDA alone, DMD converges for SD 3.5; employing both IDA and ISG, DMD converges for SD 3.5 and FLUX.1 dev. Along with other improvements such as scaled up discriminator models, our final model, dubbed \textbf{SenseFlow}, achieves superior performance in distillation for both diffusion based text-to-image models such as SDXL, and flow-matching models such as SD 3.5 Large and FLUX. The source code will be avaliable at https://github.com/XingtongGe/SenseFlow.
- Abstract(参考訳): 分散マッチング蒸留 (DMD) は, 安定拡散 (SD) 1.5 などのテキスト・画像拡散モデルに適用されている。
しかし、バニラMDDはSD 3.5やFLUXのような大規模フローベースのテキスト・ツー・イメージモデルにおいて収束困難に悩まされている。
本稿では,バニラDMDを大規模モデルに適用する場合の問題点をまず解析する。
そこで我々は,この拡張性に挑戦するために,ジェネレータと偽分布の距離を正規化するための暗黙分布アライメント(IDA)を提案する。
さらに,教師モデルから時間的重要度分布を移動させるため,ISG(Intra-segment Guide)を提案する。
IDA単独では、DMDはSD 3.5に収束し、IDAとISGの両方を使用し、DMDはSD 3.5とFLUX.1の開発に収束する。
SDXLのような拡散ベースのテキスト・画像モデルとSD 3.5 Large や FLUX といったフローマッチングモデルの両方で蒸留性能が向上する。
ソースコードはhttps://github.com/XingtongGe/SenseFlow.orgで公開されている。
関連論文リスト
- LeDiFlow: Learned Distribution-guided Flow Matching to Accelerate Image Generation [1.1847464266302488]
Flow Matching(FM)は、DMで使用されるスコアベースではなく、シミュレーションなしのトレーニング目標に基づく強力な生成モデリングパラダイムである。
本稿では,FMベースの画像生成モデルを学習するための新しいスケーラブルな手法であるLearted Distribution-guided Flow Matching(LeDiFlow)を提案する。
提案手法では,ステートオフ・ザ・アルト (SOTA) トランスフォーマーアーキテクチャと遅延空間サンプリングを併用し,コンシューマー向けワークステーションでトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-27T05:07:37Z) - ProReflow: Progressive Reflow with Decomposed Velocity [52.249464542399636]
フローマッチングは、拡散モデルの拡散過程を数ステップまたは1ステップ生成のために直線に再フローすることを目的としている。
局所的な時間ステップで拡散モデルを段階的に再フローし,拡散全体を進行させるプログレッシブ・リフローを導入する。
また,フローマッチングにおける方向整合の重要性を強調し,位置整合性を考慮したV-Predictionを導入する。
論文 参考訳(メタデータ) (2025-03-05T04:50:53Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:43:38Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - FlowDreamer: Exploring High Fidelity Text-to-3D Generation via Rectified Flow [17.919092916953183]
本研究では,フロードレーマーという新しいフレームワークを提案し,よりリッチなテキストの詳細とより高速なコンバージェンスで高忠実度な結果を得る。
鍵となる洞察は、修正流れモデルの結合性と可逆性を利用して、対応する雑音を探索することである。
我々は,同じ軌道に沿って3次元モデルを最適化するために,新しい一様マッチング結合(UCM)損失を導入する。
論文 参考訳(メタデータ) (2024-08-09T11:40:20Z) - PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher [55.22994720855957]
PaGoDAは、ダウンサンプルデータ上でのトレーニング拡散、事前訓練された拡散の蒸留、プログレッシブ超解像という3段階のトレーニングコストを削減した、新しいパイプラインである。
提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを64倍に削減する。
PaGoDAのパイプラインは、遅延空間で直接適用することができ、遅延拡散モデルで事前訓練されたオートエンコーダと共に圧縮を追加する。
論文 参考訳(メタデータ) (2024-05-23T17:39:09Z) - SDXL: Improving Latent Diffusion Models for High-Resolution Image
Synthesis [8.648456572970035]
テキスト・画像合成のための遅延拡散モデルSDXLを提案する。
以前のStable Diffusionと比較すると、SDXLはUNetの3倍のバックボーンを利用している。
従来の安定拡散法と比較すると,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-07-04T23:04:57Z) - The Score-Difference Flow for Implicit Generative Modeling [1.1929584800629673]
Inlicit Generative Modelingは、対象データ分布と一致する合成データのサンプルを作成することを目的としている。
最近の研究は、合成音源データをターゲット分布へプッシュする観点から、IGG問題にアプローチしている。
任意のターゲット分布とソース分布のスコア差を,Kulback-Leibler分散を最適に低減するフローとして提示する。
論文 参考訳(メタデータ) (2023-04-25T15:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。