論文の概要: Effective Diffusion Transformer Architecture for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2409.19589v1
- Date: Sun, 29 Sep 2024 07:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 22:18:46.562679
- Title: Effective Diffusion Transformer Architecture for Image Super-Resolution
- Title(参考訳): 画像超解像のための効果的な拡散変換器アーキテクチャ
- Authors: Kun Cheng, Lei Yu, Zhijun Tu, Xiao He, Liyu Chen, Yong Guo, Mingrui Zhu, Nannan Wang, Xinbo Gao, Jie Hu,
- Abstract要約: 画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
- 参考スコア(独自算出の注目度): 63.254644431016345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances indicate that diffusion models hold great promise in image super-resolution. While the latest methods are primarily based on latent diffusion models with convolutional neural networks, there are few attempts to explore transformers, which have demonstrated remarkable performance in image generation. In this work, we design an effective diffusion transformer for image super-resolution (DiT-SR) that achieves the visual quality of prior-based methods, but through a training-from-scratch manner. In practice, DiT-SR leverages an overall U-shaped architecture, and adopts a uniform isotropic design for all the transformer blocks across different stages. The former facilitates multi-scale hierarchical feature extraction, while the latter reallocates the computational resources to critical layers to further enhance performance. Moreover, we thoroughly analyze the limitation of the widely used AdaLN, and present a frequency-adaptive time-step conditioning module, enhancing the model's capacity to process distinct frequency information at different time steps. Extensive experiments demonstrate that DiT-SR outperforms the existing training-from-scratch diffusion-based SR methods significantly, and even beats some of the prior-based methods on pretrained Stable Diffusion, proving the superiority of diffusion transformer in image super-resolution.
- Abstract(参考訳): 近年の進歩は、拡散モデルが画像超解像において大きな可能性を秘めていることを示している。
最新の手法は主に畳み込みニューラルネットワークを用いた潜時拡散モデルに基づいているが、画像生成において顕著な性能を示すトランスフォーマーを探索する試みはほとんどない。
本研究では,画像超解像(DiT-SR)のための効果的な拡散変換器を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、異なるステージにわたるすべての変圧器ブロックに対して均一な等方性設計を採用する。
前者はマルチスケールの階層的特徴抽出を促進し、後者は計算資源を重要な層に再配置して性能をさらに向上させる。
さらに、広く使われているAdaLNの制限を徹底的に分析し、異なる時間ステップで異なる周波数情報を処理するために、周波数適応型時間ステップ条件付けモジュールを提案する。
広汎な実験により、DiT-SRは既存のスクラッチ拡散に基づくSR法よりも優れており、画像超解像における拡散変圧器の優越性を証明し、事前訓練された安定拡散法に先立ついくつかの手法よりも優れていることが証明された。
関連論文リスト
- A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs [30.973473583364832]
DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T12:16:11Z) - Sequential Posterior Sampling with Diffusion Models [15.028061496012924]
条件付き画像合成における逐次拡散後サンプリングの効率を向上させるため,遷移力学をモデル化する新しい手法を提案する。
本研究では,高フレームレート心エコー画像の現実的データセットに対するアプローチの有効性を実証する。
提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。
論文 参考訳(メタデータ) (2024-09-09T07:55:59Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Stage-by-stage Wavelet Optimization Refinement Diffusion Model for
Sparse-View CT Reconstruction [14.037398189132468]
本稿では,Sparse-view CT再構成のためのSWORD(Stage-by-stage Optimization Refinement Diffusion)モデルを提案する。
具体的には、低周波および高周波生成モデルを統合する統一的な数学的モデルを構築し、最適化手順で解を実現する。
提案手法は,低周波発生,高周波高精細化,領域変換の3段階を含む,確立された最適化理論に根ざした。
論文 参考訳(メタデータ) (2023-08-30T10:48:53Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。