論文の概要: Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs
- arxiv url: http://arxiv.org/abs/2409.17778v1
- Date: Thu, 26 Sep 2024 12:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 19:42:02.112947
- Title: Taming Diffusion Prior for Image Super-Resolution with Domain Shift SDEs
- Title(参考訳): 領域シフトSDEを用いた画像超解像の拡散前処理
- Authors: Qinpeng Cui, Yixuan Liu, Xinyi Zhang, Qiqi Bao, Zhongdao Wang, Qingmin Liao, Li Wang, Tian Lu, Emad Barsoum,
- Abstract要約: DoSSRは、事前訓練された拡散モデルの生成力を生かしたドメインシフト拡散に基づくSRモデルである。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
提案手法は, 合成および実世界のデータセットに対して, 5つのサンプリングステップしか必要とせず, 最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 30.973473583364832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image super-resolution (SR) models have attracted substantial interest due to their powerful image restoration capabilities. However, prevailing diffusion models often struggle to strike an optimal balance between efficiency and performance. Typically, they either neglect to exploit the potential of existing extensive pretrained models, limiting their generative capacity, or they necessitate a dozens of forward passes starting from random noises, compromising inference efficiency. In this paper, we present DoSSR, a Domain Shift diffusion-based SR model that capitalizes on the generative powers of pretrained diffusion models while significantly enhancing efficiency by initiating the diffusion process with low-resolution (LR) images. At the core of our approach is a domain shift equation that integrates seamlessly with existing diffusion models. This integration not only improves the use of diffusion prior but also boosts inference efficiency. Moreover, we advance our method by transitioning the discrete shift process to a continuous formulation, termed as DoS-SDEs. This advancement leads to the fast and customized solvers that further enhance sampling efficiency. Empirical results demonstrate that our proposed method achieves state-of-the-art performance on synthetic and real-world datasets, while notably requiring only 5 sampling steps. Compared to previous diffusion prior based methods, our approach achieves a remarkable speedup of 5-7 times, demonstrating its superior efficiency. Code: https://github.com/QinpengCui/DoSSR.
- Abstract(参考訳): 拡散に基づく画像超解像(SR)モデルは、その強力な画像復元能力によって大きな関心を集めている。
しかし、一般的な拡散モデルは効率と性能の最適なバランスをとるのに苦労することが多い。
通常、彼らは既存の広範囲の事前訓練されたモデルの可能性を利用し、生成能力を制限するか、ランダムノイズから始まる数十の前方通過を必要とし、推論効率を損なう。
本稿では,ドメインシフト拡散モデルであるDoSSRについて,低分解能(LR)画像による拡散過程の開始による効率の向上を図りながら,事前学習した拡散モデルの生成力を生かしたモデルを提案する。
このアプローチの核となるのは、既存の拡散モデルとシームレスに統合されるドメインシフト方程式です。
この積分は拡散前の使用を改善するだけでなく、推論効率も向上させる。
さらに、離散シフト過程をDoS-SDEと呼ばれる連続的な定式化に遷移させることにより、本手法を推し進める。
この進歩により、サンプリング効率をさらに高める高速でカスタマイズされた解法が導かれる。
実験の結果,提案手法は,合成および実世界のデータセット上での最先端性能を実現するが,サンプリングステップは5段階に留まることがわかった。
従来の拡散法と比較して,本手法は5~7倍の高速化を実現し,高い効率性を示した。
コード:https://github.com/QinpengCui/DoSSR。
関連論文リスト
- A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Sequential Posterior Sampling with Diffusion Models [15.028061496012924]
条件付き画像合成における逐次拡散後サンプリングの効率を向上させるため,遷移力学をモデル化する新しい手法を提案する。
本研究では,高フレームレート心エコー画像の現実的データセットに対するアプローチの有効性を実証する。
提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。
論文 参考訳(メタデータ) (2024-09-09T07:55:59Z) - Text-to-Image Rectified Flow as Plug-and-Play Priors [52.586838532560755]
整流流は、ソースからターゲット分布への線形進行を強制する新しい生成モデルのクラスである。
補正フローアプローチが生成品質と効率を上回り,推論ステップを少なくすることを示した。
また,画像のインバージョンや編集における競合性能も示す。
論文 参考訳(メタデータ) (2024-06-05T14:02:31Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Come-Closer-Diffuse-Faster: Accelerating Conditional Diffusion Models
for Inverse Problems through Stochastic Contraction [31.61199061999173]
拡散モデルには重要な欠点がある。純粋なガウスノイズから画像を生成するために数千ステップの反復を必要とするため、サンプリングが本質的に遅い。
ガウスノイズから始めることは不要であることを示す。代わりに、より優れた初期化を伴う単一前方拡散から始めると、逆条件拡散におけるサンプリングステップの数を大幅に減少させる。
ComeCloser-DiffuseFaster (CCDF)と呼ばれる新しいサンプリング戦略は、逆問題に対する既存のフィードフォワードニューラルネットワークアプローチが拡散モデルと相乗的に組み合わせられる方法について、新たな洞察を明らかにしている。
論文 参考訳(メタデータ) (2021-12-09T04:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。