論文の概要: Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach
- arxiv url: http://arxiv.org/abs/2310.12004v3
- Date: Wed, 13 Dec 2023 13:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:16:30.333164
- Title: Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach
- Title(参考訳): Image Super resolution Via Latent Diffusion: エキスパートのサンプリング空間と周波数拡張デコーダアプローチ
- Authors: Feng Luo, Jinxi Xiang, Jun Zhang, Xiao Han, Wei Yang
- Abstract要約: 事前訓練されたテキスト画像モデルにより画像超解像の潜時拡散が改善した。
ラテントベースの手法では、特徴エンコーダを使用して画像を変換し、コンパクトなラテント空間でSR画像生成を実装する。
遅延空間から画素空間への周波数成分を増大させる周波数補償モジュールを提案する。
- 参考スコア(独自算出の注目度): 17.693287544860638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent use of diffusion prior, enhanced by pre-trained text-image models,
has markedly elevated the performance of image super-resolution (SR). To
alleviate the huge computational cost required by pixel-based diffusion SR,
latent-based methods utilize a feature encoder to transform the image and then
implement the SR image generation in a compact latent space. Nevertheless,
there are two major issues that limit the performance of latent-based
diffusion. First, the compression of latent space usually causes reconstruction
distortion. Second, huge computational cost constrains the parameter scale of
the diffusion model. To counteract these issues, we first propose a frequency
compensation module that enhances the frequency components from latent space to
pixel space. The reconstruction distortion (especially for high-frequency
information) can be significantly decreased. Then, we propose to use
Sample-Space Mixture of Experts (SS-MoE) to achieve more powerful latent-based
SR, which steadily improves the capacity of the model without a significant
increase in inference costs. These carefully crafted designs contribute to
performance improvements in largely explored 4x blind super-resolution
benchmarks and extend to large magnification factors, i.e., 8x image SR
benchmarks. The code is available at https://github.com/amandaluof/moe_sr.
- Abstract(参考訳): 近年、事前訓練されたテキストイメージモデルによって強化された拡散先行利用により、画像超解像(SR)の性能が著しく向上した。
画素ベースの拡散SRで必要とされる膨大な計算コストを軽減するため、ラテントベースの手法では特徴エンコーダを用いて画像を変換し、コンパクトなラテント空間でSR画像を生成する。
それでも、潜伏拡散の性能を制限する2つの大きな問題がある。
まず、遅延空間の圧縮は通常、再構成歪みを引き起こす。
第二に、膨大な計算コストは拡散モデルのパラメータスケールを制約する。
これらの問題を解決するため,我々はまず,周波数成分を潜在空間から画素空間へ拡張する周波数補償モジュールを提案する。
再構成歪み(特に高周波情報)は著しく低減することができる。
次に,より強力な潜在性に基づくsrを実現するために,ss-moeのサンプル空間混合モデル(ss-moe)を用いて,推定コストを大幅に増加させることなく,モデルのキャパシティを着実に向上させる手法を提案する。
これらの慎重に設計された設計は、主に調査された4倍高解像度のベンチマークの性能向上に貢献し、8倍画像SRベンチマークのような大きな倍率係数にまで拡張した。
コードはhttps://github.com/amandaluof/moe_srで入手できる。
関連論文リスト
- High Frequency Matters: Uncertainty Guided Image Compression with Wavelet Diffusion [35.168244436206685]
ウェーブレット拡散(UGDiff)を用いた不確実性誘導画像圧縮手法を提案する。
本稿では,ウェーブレット変換による高周波圧縮に着目した。
2つのベンチマークデータセットに関する総合的な実験は、UGDiffの有効性を検証する。
論文 参考訳(メタデータ) (2024-07-17T13:21:31Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Improving the Stability of Diffusion Models for Content Consistent
Super-Resolution [17.2713480052151]
画像超解像(SR)結果の知覚的品質を高めるために、事前学習した潜伏拡散モデルの生成先行が大きな可能性を証明している。
本稿では,画像構造を洗練させるために拡散モデルを用いるとともに,画像の微細化を図るために生成的対角トレーニングを採用することを提案する。
具体的には、画像主構造を再現するために、高効率で安定な、コンパクトな拡散ネットワークを訓練するための一様でないタイムステップ学習戦略を提案する。
論文 参考訳(メタデータ) (2023-12-30T10:22:59Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models [9.245782611878752]
ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
論文 参考訳(メタデータ) (2023-04-17T14:06:49Z) - Towards Lightweight Super-Resolution with Dual Regression Learning [58.98801753555746]
深層ニューラルネットワークは、画像超解像(SR)タスクにおいて顕著な性能を示した。
SR問題は通常不適切な問題であり、既存の手法にはいくつかの制限がある。
本稿では、SRマッピングの可能な空間を削減するために、二重回帰学習方式を提案する。
論文 参考訳(メタデータ) (2022-07-16T12:46:10Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。