論文の概要: DiffIR: Efficient Diffusion Model for Image Restoration
- arxiv url: http://arxiv.org/abs/2303.09472v3
- Date: Wed, 16 Aug 2023 14:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:21:38.245267
- Title: DiffIR: Efficient Diffusion Model for Image Restoration
- Title(参考訳): DiffIR:画像復元のための効率的な拡散モデル
- Authors: Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng
Tian, Wenming Yang, and Luc Van Gool
- Abstract要約: 拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
- 参考スコア(独自算出の注目度): 108.82579440308267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion model (DM) has achieved SOTA performance by modeling the image
synthesis process into a sequential application of a denoising network.
However, different from image synthesis, image restoration (IR) has a strong
constraint to generate results in accordance with ground-truth. Thus, for IR,
traditional DMs running massive iterations on a large model to estimate whole
images or feature maps is inefficient. To address this issue, we propose an
efficient DM for IR (DiffIR), which consists of a compact IR prior extraction
network (CPEN), dynamic IR transformer (DIRformer), and denoising network.
Specifically, DiffIR has two training stages: pretraining and training DM. In
pretraining, we input ground-truth images into CPEN$_{S1}$ to capture a compact
IR prior representation (IPR) to guide DIRformer. In the second stage, we train
the DM to directly estimate the same IRP as pretrained CPEN$_{S1}$ only using
LQ images. We observe that since the IPR is only a compact vector, DiffIR can
use fewer iterations than traditional DM to obtain accurate estimations and
generate more stable and realistic results. Since the iterations are few, our
DiffIR can adopt a joint optimization of CPEN$_{S2}$, DIRformer, and denoising
network, which can further reduce the estimation error influence. We conduct
extensive experiments on several IR tasks and achieve SOTA performance while
consuming less computational costs. Code is available at
\url{https://github.com/Zj-BinXia/DiffIR}.
- Abstract(参考訳): 拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
しかし、画像合成とは違って、画像復元(IR)は、地上構造に応じて結果を生成するのに強い制約がある。
したがって、IRの場合、画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは非効率である。
この問題に対処するために、コンパクトIR先行抽出ネットワーク(CPEN)、動的IRトランスフォーマ(DIRformer)、復調ネットワーク(denoising network)からなるIR(DiffIR)のための効率的なDMを提案する。
具体的には、DiffIRには2つのトレーニングステージがある。
事前トレーニングでは, CPEN$_{S1}$に接地画像を入力することで, コンパクトIR先行表現(IPR)を捕捉し, DIRformerを誘導する。
第2段階では、LQ画像のみを用いて事前訓練されたCPEN$_{S1}$と同じIRPを直接推定するようにDMを訓練する。
IPRはコンパクトなベクトルであるため、DiffIRは従来のDMよりも少ないイテレーションで正確な推定を行い、より安定でリアルな結果を生成することができる。
繰り返しは少ないので、我々のDiffIRはCPEN$_{S2}$, DIRformer, denoising Networkを併用することで、推定誤差の影響をさらに低減することができる。
計算コストを削減しつつ、複数のIRタスクを広範囲に実験し、SOTA性能を達成する。
コードは \url{https://github.com/zj-binxia/diffir} で入手できる。
関連論文リスト
- Invertible Residual Rescaling Models [46.28263683643467]
Invertible Rescaling Networks (IRNs)とその変種は、画像再スケーリングのような様々な画像処理タスクにおいて顕著な成果をみせた。
Invertible Residual Rescaling Models (IRRM) は,高解像度画像と高解像度画像との複射を特定の分布で学習することにより,画像再スケーリングを実現する。
我々のIRRMは,x4再スケーリングにおいて,それぞれ最低0.3dBのPSNRゲインを有し,60%のパラメータと50%のFLOPしか使用していない。
論文 参考訳(メタデータ) (2024-05-05T14:14:49Z) - Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge [11.905387325966311]
本稿では、RGB画像から抽出した新しいデータに、RGB画像に基づいて訓練された大規模な物体検出モデルを適用することに焦点を当てる。
モーダリティ変換器 (ModTr) を, 大規模モデルを新しいモーダリティに微調整する一般的な手法の代替として提案する。
論文 参考訳(メタデータ) (2024-04-01T21:28:50Z) - Learning to See Low-Light Images via Feature Domain Adaptation [17.033219611079165]
そこで我々は,特徴領域適応(FDA)によって強化された単一段階ネットワークを提案し,生のLLIEにおけるデノイングとカラーマッピングのタスクを分離する。
FDAは、ラインバッファを減らすことで、グローバルとローカルの相関関係を探索することができる。
本手法は,計算コストを削減して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T03:38:26Z) - EDiffSR: An Efficient Diffusion Probabilistic Model for Remote Sensing
Image Super-Resolution [32.956539422513416]
畳み込みネットワークは、リモートセンシング画像スーパーレゾルティオン(SR)において顕著な発展を遂げた
生成的敵ネットワークは複雑な詳細を推測する可能性があるが、それらは容易に崩壊し、望ましくない成果物をもたらす。
EDiffSRは訓練が容易で、知覚障害画像の生成におけるDPMの利点を維持している。
論文 参考訳(メタデータ) (2023-10-30T06:09:33Z) - DiffI2I: Efficient Diffusion Model for Image-to-Image Translation [108.82579440308267]
画像合成のためのSOTAアプローチとして拡散モデル (DM) が登場した。
DMは画像から画像への変換(I2I)タスクではうまく機能しない。
DiffI2Iは、コンパクトI2I事前抽出ネットワーク(CPEN)、動的I2Iトランス(DI2Iformer)、デノイングネットワーク(denoising network)の3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-08-26T05:18:23Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Towards Lightweight Super-Resolution with Dual Regression Learning [58.98801753555746]
深層ニューラルネットワークは、画像超解像(SR)タスクにおいて顕著な性能を示した。
SR問題は通常不適切な問題であり、既存の手法にはいくつかの制限がある。
本稿では、SRマッピングの可能な空間を削減するために、二重回帰学習方式を提案する。
論文 参考訳(メタデータ) (2022-07-16T12:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。