論文の概要: DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
- arxiv url: http://arxiv.org/abs/2509.25180v2
- Date: Wed, 01 Oct 2025 02:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.797549
- Title: DC-Gen: Post-Training Diffusion Acceleration with Deeply Compressed Latent Space
- Title(参考訳): DC-Gen: 深部圧縮潜在空間を用いた後拡散加速
- Authors: Wenkun He, Yuchao Gu, Junyu Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Haocheng Xi, Muyang Li, Ligeng Zhu, Jincheng Yu, Junsong Chen, Enze Xie, Song Han, Han Cai,
- Abstract要約: 既存のテキストと画像の拡散モデルは高品質な画像を生成するのに優れていますが、高解像度にスケールすると大きな効率上の課題に直面します。
本稿では、深く圧縮された潜在空間を活用することで、テキストから画像への拡散を加速するフレームワークであるDC-Genを紹介する。
具体的には、DC-Gen-FLUXはNVIDIA H100 GPU上で4K画像生成のレイテンシを53倍削減する。
- 参考スコア(独自算出の注目度): 49.28906188484785
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing text-to-image diffusion models excel at generating high-quality images, but face significant efficiency challenges when scaled to high resolutions, like 4K image generation. While previous research accelerates diffusion models in various aspects, it seldom handles the inherent redundancy within the latent space. To bridge this gap, this paper introduces DC-Gen, a general framework that accelerates text-to-image diffusion models by leveraging a deeply compressed latent space. Rather than a costly training-from-scratch approach, DC-Gen uses an efficient post-training pipeline to preserve the quality of the base model. A key challenge in this paradigm is the representation gap between the base model's latent space and a deeply compressed latent space, which can lead to instability during direct fine-tuning. To overcome this, DC-Gen first bridges the representation gap with a lightweight embedding alignment training. Once the latent embeddings are aligned, only a small amount of LoRA fine-tuning is needed to unlock the base model's inherent generation quality. We verify DC-Gen's effectiveness on SANA and FLUX.1-Krea. The resulting DC-Gen-SANA and DC-Gen-FLUX models achieve quality comparable to their base models but with a significant speedup. Specifically, DC-Gen-FLUX reduces the latency of 4K image generation by 53x on the NVIDIA H100 GPU. When combined with NVFP4 SVDQuant, DC-Gen-FLUX generates a 4K image in just 3.5 seconds on a single NVIDIA 5090 GPU, achieving a total latency reduction of 138x compared to the base FLUX.1-Krea model. Code: https://github.com/dc-ai-projects/DC-Gen.
- Abstract(参考訳): 既存のテキストと画像の拡散モデルは高品質な画像を生成するのに優れていますが、4K画像生成のような高解像度にスケールする場合、大きな効率上の課題に直面します。
従来の研究は様々な面で拡散モデルを加速するが、潜伏空間内の固有の冗長性を扱うことは滅多にない。
このギャップを埋めるために、本論文では、深く圧縮された潜在空間を活用することで、テキストと画像の拡散モデルを加速する一般的なフレームワークであるDC-Genを紹介する。
コストのかかるスクラッチアプローチではなく、DC-Genは、ベースモデルの品質を維持するために効率的な後トレーニングパイプラインを使用する。
このパラダイムの重要な課題は、ベースモデルの潜伏空間と深く圧縮された潜伏空間との表現ギャップであり、これは直接微調整の際の不安定性を引き起こす。
これを克服するため、DC-Genはまず、軽量な埋め込みアライメントトレーニングで表現ギャップをブリッジする。
遅延埋め込みが整列されると、ベースモデルの固有の生成品質をアンロックするためには、LoRAの微調整が少量必要になる。
SANAとFLUX.1-KreaにおけるDC-Genの有効性を検証する。
結果として得られたDC-Gen-SANAとDC-Gen-FLUXモデルは、ベースモデルに匹敵する品質を達成しているが、大幅なスピードアップを実現している。
具体的には、DC-Gen-FLUXはNVIDIA H100 GPU上で4K画像生成のレイテンシを53倍削減する。
NVFP4 SVDQuantと組み合わせると、DC-Gen-FLUXは1つのNVIDIA 5090 GPU上でわずか3.5秒で4K画像を生成し、ベースとなるFLUX.1-Kreaモデルと比較して128倍のレイテンシ削減を実現している。
コード:https://github.com/dc-ai-projects/DC-Gen。
関連論文リスト
- DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder [55.26098043655325]
DC-VideoGenは、事前訓練されたビデオ拡散モデルに適用することができる。
軽量な微調整を施した深部圧縮潜伏空間に適応することができる。
論文 参考訳(メタデータ) (2025-09-29T17:59:31Z) - DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space [31.531194096383896]
高分解能拡散モデルのための新しい圧縮オートエンコーダであるDC-AE 1.5を提案する。
この課題に対処するために、構造化潜在空間と拡張拡散訓練という2つの重要なイノベーションを紹介します。
ImageNet 512x512では、DC-AE-1.5-f64c128は、DC-AE-f32c32より4倍高速な画像生成品質を提供する。
論文 参考訳(メタデータ) (2025-08-01T08:11:07Z) - DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer [32.64616770377737]
DC-ARは、マスク付き自己回帰(AR)テキスト・ツー・イメージ生成フレームワークである。
優れた画像生成品質と計算効率を両立させる。
論文 参考訳(メタデータ) (2025-07-07T12:45:23Z) - When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization [92.17160980120404]
本稿では,第2段階のモデル手法の知識を用いて,第1段階の潜伏者に有用な帰納バイアスを埋め込むCausally Regularized Tokenization(CRT)を紹介する。
CRTは、ステージ1の再構築性能を悪化させるが、ステージ2の生成性能は、トークンをモデル化しやすくすることで向上する。
最先端の離散自己回帰画像ネット生成(2.18 FID)と画像あたりのトークンの半分以下とをマッチングする。
論文 参考訳(メタデータ) (2024-12-20T20:32:02Z) - Supercharged One-step Text-to-Image Diffusion Models with Negative Prompts [19.609393551644562]
負のプロンプトを1段階拡散モデルに統合する効率的な方法である textbfNegative-textbfAway textbfSteer textbfAttention (NASA) を導入する。
NASAは、望ましくない視覚特性を抑えるためにクロスアテンション機構を活用することで、中間表現空間内で運用している。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - HART: Efficient Visual Generation with Hybrid Autoregressive Transformer [33.97880303341509]
本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。
提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。
HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
論文 参考訳(メタデータ) (2024-10-14T17:59:42Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator
for Vision Applications [108.44482683870888]
Deformable Convolution v4 (DCNv4) は、広帯域の視覚アプリケーション向けに設計された、高効率で効率的な演算子である。
DCNv4は、前任のDCNv3の制限に対処し、2つの重要な拡張を加えた。
画像分類、インスタンスとセマンティックセグメンテーション、特に画像生成など、様々なタスクで例外的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-11T14:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。