論文の概要: DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
- arxiv url: http://arxiv.org/abs/2511.19365v1
- Date: Mon, 24 Nov 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.358336
- Title: DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation
- Title(参考訳): DeCo:エンド・ツー・エンド画像生成のための周波数分離型画素拡散
- Authors: Zehong Ma, Longhui Wei, Shuai Wang, Shiliang Zhang, Qi Tian,
- Abstract要約: より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
- 参考スコア(独自算出の注目度): 93.6273078684831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel diffusion aims to generate images directly in pixel space in an end-to-end fashion. This approach avoids the limitations of VAE in the two-stage latent diffusion, offering higher model capacity. Existing pixel diffusion models suffer from slow training and inference, as they usually model both high-frequency signals and low-frequency semantics within a single diffusion transformer (DiT). To pursue a more efficient pixel diffusion paradigm, we propose the frequency-DeCoupled pixel diffusion framework. With the intuition to decouple the generation of high and low frequency components, we leverage a lightweight pixel decoder to generate high-frequency details conditioned on semantic guidance from the DiT. This thus frees the DiT to specialize in modeling low-frequency semantics. In addition, we introduce a frequency-aware flow-matching loss that emphasizes visually salient frequencies while suppressing insignificant ones. Extensive experiments show that DeCo achieves superior performance among pixel diffusion models, attaining FID of 1.62 (256x256) and 2.22 (512x512) on ImageNet, closing the gap with latent diffusion methods. Furthermore, our pretrained text-to-image model achieves a leading overall score of 0.86 on GenEval in system-level comparison. Codes are publicly available at https://github.com/Zehong-Ma/DeCo.
- Abstract(参考訳): ピクセル拡散は、エンドツーエンドでピクセル空間で画像を直接生成することを目的としている。
このアプローチは2段階の潜伏拡散におけるVAEの限界を回避し、より高いモデル容量を提供する。
既存のピクセル拡散モデルは、通常、単一拡散変換器(DiT)内の高周波信号と低周波意味の両方をモデル化するため、遅いトレーニングと推論に悩まされる。
より効率的な画素拡散パラダイムを追求するために、周波数デカップリングされた画素拡散フレームワークを提案する。
高周波数成分と低周波成分の生成を分離する直感によって、我々は軽量の画素デコーダを利用して、DiTから意味指導を条件とした高周波の詳細を生成する。
これにより、DiTは低周波セマンティクスのモデリングに特化することができる。
さらに,不明瞭な周波数を抑えつつ,視覚的に健全な周波数を強調する周波数認識型フローマッチング損失を導入する。
大規模な実験により,DeCoは1.62 (256x256) と2.22 (512x512) の FID を ImageNet 上で達成し,遅延拡散法とのギャップを埋めるなど,画素拡散モデルの優れた性能を実現することが示された。
さらに、事前訓練されたテキスト・画像モデルにより、システムレベルの比較においてGenEvalの総合スコアが0.86となる。
コードはhttps://github.com/Zehong-Ma/DeCo.comで公開されている。
関連論文リスト
- DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。
textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
論文 参考訳(メタデータ) (2025-04-08T07:17:45Z) - Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、品質と効率の両方において、潜在モデルと非常に競合することを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。
約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。
提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文 参考訳(メタデータ) (2023-11-30T18:59:20Z) - Progressive Deblurring of Diffusion Models for Coarse-to-Fine Image
Synthesis [39.671396431940224]
拡散モデルは、徐々にノイズを取り除き、増幅信号を増幅することにより、画像合成において顕著な結果を示した。
本稿では,画像の粗大な合成方法を提案する。
実験の結果,提案手法はLSUNの寝室や教会のデータセットにおいて,従来のFID法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-16T15:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。