論文の概要: DCTdiff: Intriguing Properties of Image Generative Modeling in the DCT Space
- arxiv url: http://arxiv.org/abs/2412.15032v1
- Date: Thu, 19 Dec 2024 16:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:24.738663
- Title: DCTdiff: Intriguing Properties of Image Generative Modeling in the DCT Space
- Title(参考訳): DCTdiff:DCT空間における画像生成モデリングの興味深い特徴
- Authors: Mang Ning, Mingxiao Li, Jianlin Su, Haozhe Jia, Lanmiao Liu, Martin Beneš, Albert Ali Salah, Itir Onal Ertugrul,
- Abstract要約: 本稿では、離散コサイン変換(DCT)空間の画像を効率的にモデル化する、エンドツーエンドの拡散生成パラダイムであるDCTdiffを紹介する。
異なるフレームワーク(UViT, DiT)、生成タスク、および様々な拡散サンプリング実験により、DCTdiffは、生成品質とトレーニング効率に関する画素ベースの拡散モデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 6.965011831267036
- License:
- Abstract: This paper explores image modeling from the frequency space and introduces DCTdiff, an end-to-end diffusion generative paradigm that efficiently models images in the discrete cosine transform (DCT) space. We investigate the design space of DCTdiff and reveal the key design factors. Experiments on different frameworks (UViT, DiT), generation tasks, and various diffusion samplers demonstrate that DCTdiff outperforms pixel-based diffusion models regarding generative quality and training efficiency. Remarkably, DCTdiff can seamlessly scale up to high-resolution generation without using the latent diffusion paradigm. Finally, we illustrate several intriguing properties of DCT image modeling. For example, we provide a theoretical proof of why `image diffusion can be seen as spectral autoregression', bridging the gap between diffusion and autoregressive models. The effectiveness of DCTdiff and the introduced properties suggest a promising direction for image modeling in the frequency space. The code is at \url{https://github.com/forever208/DCTdiff}.
- Abstract(参考訳): 本稿では、周波数空間からの画像モデリングについて検討し、離散コサイン変換(DCT)空間の画像を効率的にモデル化するエンドツーエンド拡散生成パラダイムであるDCTdiffを紹介する。
本稿では,DCTdiffの設計空間について検討し,重要な設計要素を明らかにする。
異なるフレームワーク(UViT, DiT)、生成タスク、および様々な拡散サンプリング実験により、DCTdiffは、生成品質とトレーニング効率に関する画素ベースの拡散モデルより優れていることが示された。
注目すべきは、DCTdiffは遅延拡散パラダイムを使わずに、シームレスに高分解能生成にスケールアップできることだ。
最後に,DCT画像モデリングの興味深い特徴について述べる。
例えば、「画像拡散がスペクトル自己回帰と見なせる」理由を理論的に証明し、拡散と自己回帰モデルの間のギャップを埋める。
DCTdiffの有効性と導入された特性は、周波数空間における画像モデリングに有望な方向を示唆している。
コードは \url{https://github.com/forever208/DCTdiff} にある。
関連論文リスト
- DeltaDiff: A Residual-Guided Diffusion Model for Enhanced Image Super-Resolution [9.948203187433196]
拡散のために画像間の残差のみを利用するDeltadiffと呼ばれる新しい拡散モデルを提案する。
提案手法は,最先端モデルを超え,忠実度を向上した結果を生成する。
論文 参考訳(メタデータ) (2025-02-18T06:07:14Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - A Geometric Perspective on Diffusion Models [57.27857591493788]
本稿では,人気のある分散拡散型SDEのODEに基づくサンプリングについて検討する。
我々は、最適なODEベースのサンプリングと古典的な平均シフト(モード探索)アルゴリズムの理論的関係を確立する。
論文 参考訳(メタデータ) (2023-05-31T15:33:16Z) - DiffUCD:Unsupervised Hyperspectral Image Change Detection with Semantic
Correlation Diffusion Model [46.68717345017946]
ハイパースペクトル画像変化検出(HSI-CD)はリモートセンシングにおいて重要な研究領域となっている。
意味相関拡散モデル(DiffUCD)を用いた新しい教師なしHSI-CDを提案する。
提案手法は,多数のサンプルを必要とする完全教師付き手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-05-21T09:21:41Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z) - DiffusionCT: Latent Diffusion Model for CT Image Standardization [9.312998333278802]
既存のCT画像調和モデルは、GANベースの教師付きまたは半教師付き学習に依存しており、性能は限られている。
この研究は、異なるベンダーやプロトコルから取得したCT画像を標準化するために、DiffusionCTと呼ばれる新しい拡散ベースモデルを用いたCT画像調和の問題に対処する。
DiffusionCTを用いた標準化タスクの性能向上実験を行った。
論文 参考訳(メタデータ) (2023-01-20T22:13:48Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unifying Diffusion Models' Latent Space, with Applications to
CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。
テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。