論文の概要: Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models
- arxiv url: http://arxiv.org/abs/2304.08291v1
- Date: Mon, 17 Apr 2023 14:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:59:40.350383
- Title: Refusion: Enabling Large-Size Realistic Image Restoration with
Latent-Space Diffusion Models
- Title(参考訳): リフュージョン:ラテント空間拡散モデルによる大規模リアル画像復元の実現
- Authors: Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund, Thomas
B. Sch\"on
- Abstract要約: ネットワークアーキテクチャ、ノイズレベル、デノイングステップ、トレーニング画像サイズ、知覚/スケジューリングスコアなど、様々な面で拡散モデルを強化する。
また、復号処理のために元の入力からの高分解能情報を保存しつつ、低分解能潜時空間での拡散を行うU-Netベースの潜時拡散モデルを提案する。
これらの修正により、現実世界の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換など、様々な画像復元タスクに拡散モデルを適用することができる。
- 参考スコア(独自算出の注目度): 9.245782611878752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to improve the applicability of diffusion models in realistic
image restoration. Specifically, we enhance the diffusion model in several
aspects such as network architecture, noise level, denoising steps, training
image size, and optimizer/scheduler. We show that tuning these hyperparameters
allows us to achieve better performance on both distortion and perceptual
scores. We also propose a U-Net based latent diffusion model which performs
diffusion in a low-resolution latent space while preserving high-resolution
information from the original input for the decoding process. Compared to the
previous latent-diffusion model which trains a VAE-GAN to compress the image,
our proposed U-Net compression strategy is significantly more stable and can
recover highly accurate images without relying on adversarial optimization.
Importantly, these modifications allow us to apply diffusion models to various
image restoration tasks, including real-world shadow removal, HR
non-homogeneous dehazing, stereo super-resolution, and bokeh effect
transformation. By simply replacing the datasets and slightly changing the
noise network, our model, named Refusion, is able to deal with large-size
images (e.g., 6000 x 4000 x 3 in HR dehazing) and produces good results on all
the above restoration problems. Our Refusion achieves the best perceptual
performance in the NTIRE 2023 Image Shadow Removal Challenge and wins 2nd place
overall.
- Abstract(参考訳): 本研究は,現実的な画像復元における拡散モデルの適用性の向上を目的としている。
具体的には,ネットワークアーキテクチャ,ノイズレベル,デノージングステップ,トレーニング画像サイズ,オプティマイザ/スケジューラなど,いくつかの面で拡散モデルを強化する。
これらのハイパーパラメータをチューニングすることで、歪みと知覚スコアの両方でより良いパフォーマンスが得られることを示す。
また, u-netベースの潜在拡散モデルを提案し, 低解像度の潜在空間で拡散を行い, 復号処理のための元の入力から高分解能情報を保存する。
画像圧縮のためにvae-ganを訓練した前回の潜在拡散モデルと比較して,提案するu-net圧縮戦略は著しく安定しており,逆最適化に頼らずに高精度な画像の復元が可能である。
これらの修正により、現実の影除去、HR非均一脱ハージング、ステレオ超解像、ボケ効果変換などの様々な画像復元タスクに拡散モデルを適用することができる。
データセットを置き換え、ノイズネットワークをわずかに変化させることで、Refusionと呼ばれるモデルでは、大規模な画像(例えば、HRデハジングで6000 x 4000 x 3)を処理でき、上記の復元問題に対して良い結果が得られる。
我々のリフュージョンはNTIRE 2023 Image Shadow removal Challengeで最高の知覚性能を達成し、総合2位を獲得した。
関連論文リスト
- Diff-Restorer: Unleashing Visual Prompts for Diffusion-based Universal Image Restoration [19.87693298262894]
拡散モデルに基づく普遍的な画像復元手法であるDiff-Restorerを提案する。
我々は、事前学習された視覚言語モデルを用いて、劣化した画像から視覚的プロンプトを抽出する。
また、デグレーション対応デコーダを設計し、構造的補正を行い、潜在コードをピクセル領域に変換する。
論文 参考訳(メタデータ) (2024-07-04T05:01:10Z) - Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。
このアプローチによって、完全な拡散生成プロセスの10%未満の実行が可能になり、バックボーンにアーキテクチャ的な変更は不要になります。
論文 参考訳(メタデータ) (2024-04-12T16:23:42Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - HiDiffusion: Unlocking Higher-Resolution Creativity and Efficiency in Pretrained Diffusion Models [13.68666823175341]
HiDiffusionは、画像合成のためのチューニング不要な高解像度フレームワークである。
RAU-Netはオブジェクト重複を解決するために特徴マップサイズを動的に調整する。
MSW-MSAは、計算量を減らすために最適化されたウィンドウアテンションを利用する。
論文 参考訳(メタデータ) (2023-11-29T11:01:38Z) - Image Super-resolution Via Latent Diffusion: A Sampling-space Mixture Of
Experts And Frequency-augmented Decoder Approach [17.693287544860638]
事前訓練されたテキスト画像モデルにより画像超解像の潜時拡散が改善した。
ラテントベースの手法では、特徴エンコーダを使用して画像を変換し、コンパクトなラテント空間でSR画像生成を実装する。
遅延空間から画素空間への周波数成分を増大させる周波数補償モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:39:25Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration [39.071637725773314]
画像復元のための粗大な拡散変換器(C2F-DFT)を提案する。
C2F-DFTは拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)を含んでいる
粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。
論文 参考訳(メタデータ) (2023-08-17T01:59:59Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。