論文の概要: DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space
- arxiv url: http://arxiv.org/abs/2508.00413v1
- Date: Fri, 01 Aug 2025 08:11:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.790752
- Title: DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space
- Title(参考訳): DC-AE 1.5:構造ラテント空間による拡散モデル収束の高速化
- Authors: Junyu Chen, Dongyun Zou, Wenkun He, Junsong Chen, Enze Xie, Song Han, Han Cai,
- Abstract要約: 高分解能拡散モデルのための新しい圧縮オートエンコーダであるDC-AE 1.5を提案する。
この課題に対処するために、構造化潜在空間と拡張拡散訓練という2つの重要なイノベーションを紹介します。
ImageNet 512x512では、DC-AE-1.5-f64c128は、DC-AE-f32c32より4倍高速な画像生成品質を提供する。
- 参考スコア(独自算出の注目度): 31.531194096383896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DC-AE 1.5, a new family of deep compression autoencoders for high-resolution diffusion models. Increasing the autoencoder's latent channel number is a highly effective approach for improving its reconstruction quality. However, it results in slow convergence for diffusion models, leading to poorer generation quality despite better reconstruction quality. This issue limits the quality upper bound of latent diffusion models and hinders the employment of autoencoders with higher spatial compression ratios. We introduce two key innovations to address this challenge: i) Structured Latent Space, a training-based approach to impose a desired channel-wise structure on the latent space with front latent channels capturing object structures and latter latent channels capturing image details; ii) Augmented Diffusion Training, an augmented diffusion training strategy with additional diffusion training objectives on object latent channels to accelerate convergence. With these techniques, DC-AE 1.5 delivers faster convergence and better diffusion scaling results than DC-AE. On ImageNet 512x512, DC-AE-1.5-f64c128 delivers better image generation quality than DC-AE-f32c32 while being 4x faster. Code: https://github.com/dc-ai-projects/DC-Gen.
- Abstract(参考訳): 高分解能拡散モデルのための新しい圧縮オートエンコーダであるDC-AE 1.5を提案する。
自己エンコーダの潜伏チャネル数の増加は、その復元品質を向上させるための非常に効果的なアプローチである。
しかし、拡散モデルの収束が遅くなり、再構築品質が向上したにもかかわらず、世代品質が低下する。
この問題は、潜伏拡散モデルの品質上限を制限し、空間圧縮比の高いオートエンコーダの使用を妨げる。
この課題に対処するための2つの重要なイノベーションを紹介します。
一 被写体を撮影する前潜流路及び被写体を撮影する後潜流路を有する潜流空間に所望の流路的構造を課す訓練に基づく方法。
二 拡張拡散訓練とは、収束を加速するために、対象潜流路にさらなる拡散訓練を施した拡張拡散訓練戦略である。
これらの手法により、DC-AE 1.5はDC-AEよりも高速な収束と拡散スケーリング結果を提供する。
ImageNet 512x512では、DC-AE-1.5-f64c128は、DC-AE-f32c32より4倍高速な画像生成品質を提供する。
コード:https://github.com/dc-ai-projects/DC-Gen。
関連論文リスト
- CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - DGAE: Diffusion-Guided Autoencoder for Efficient Latent Representation Learning [42.22785629783251]
オートエンコーダは、画像トークン化によってピクセルを潜在空間に圧縮することで、最先端の画像およびビデオ生成モデルを強化する。
近年, 圧縮率の高いオートエンコーダの性能劣化が軽減されているが, GANによるトレーニング不安定性は未解決のままである。
本稿では、拡散モデルを用いてデコーダを誘導し、潜在表現から完全に復号化されていない情報信号を復元するDGAEを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:01:03Z) - DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling [53.33281984430122]
Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。
本稿では,効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして,畳み込みを再考する。
標準のConvNetモジュールから完全に構築された拡散モデルのファミリであるDiffusion ConvNet(DiCo)を紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:54:04Z) - H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [76.1519545010611]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。
我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Deep Compression Autoencoder for Efficient High-Resolution Diffusion Models [38.84567900296605]
ディープ圧縮オートエンコーダ (DC-AE) は高分解能拡散モデルの高速化を目的とした新しいオートエンコーダモデルである。
遅延拡散モデルへの直流-AEの適用により,精度低下のない大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-10-14T17:15:07Z) - Latent Denoising Diffusion GAN: Faster sampling, Higher image quality [0.0]
Latent Denoising Diffusion GANは、トレーニング済みのオートエンコーダを使用して、画像をコンパクトなLatent空間に圧縮する。
従来のDiffusionGANやWavelet Diffusionと比較して,評価指標の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T16:32:23Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。