論文の概要: DiffIR: Efficient Diffusion Model for Image Restoration
- arxiv url: http://arxiv.org/abs/2303.09472v1
- Date: Thu, 16 Mar 2023 16:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:35:22.044242
- Title: DiffIR: Efficient Diffusion Model for Image Restoration
- Title(参考訳): DiffIR:画像復元のための効率的な拡散モデル
- Authors: Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng
Tian, Wenming Yang, and Luc Van Gool
- Abstract要約: 拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
本稿では,小型IR先行抽出ネットワーク(CPEN),動的IR変換器(DIRformer),デノナイジングネットワーク(denoising network)からなるIR(DiffIR)のための効率的なDMを提案する。
- 参考スコア(独自算出の注目度): 90.31810103729913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion model (DM) has achieved SOTA performance by modeling the image
synthesis process into a sequential application of a denoising network.
However, different from image synthesis generating each pixel from scratch,
most pixels of image restoration (IR) are given. Thus, for IR, traditional DMs
running massive iterations on a large model to estimate whole images or feature
maps is inefficient. To address this issue, we propose an efficient DM for IR
(DiffIR), which consists of a compact IR prior extraction network (CPEN),
dynamic IR transformer (DIRformer), and denoising network. Specifically, DiffIR
has two training stages: pretraining and training DM. In pretraining, we input
ground-truth images into CPEN$_{S1}$ to capture a compact IR prior
representation (IPR) to guide DIRformer. In the second stage, we train the DM
to directly estimate the same IRP as pretrained CPEN$_{S1}$ only using LQ
images. We observe that since the IPR is only a compact vector, DiffIR can use
fewer iterations than traditional DM to obtain accurate estimations and
generate more stable and realistic results. Since the iterations are few, our
DiffIR can adopt a joint optimization of CPEN$_{S2}$, DIRformer, and denoising
network, which can further reduce the estimation error influence. We conduct
extensive experiments on several IR tasks and achieve SOTA performance while
consuming less computational costs.
- Abstract(参考訳): 拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
しかし、スクラッチから各画素を生成する画像合成とは異なり、ほとんどの画像復元(IR)が与えられる。
したがって、IRの場合、画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは非効率である。
この問題に対処するために、コンパクトIR先行抽出ネットワーク(CPEN)、動的IRトランスフォーマ(DIRformer)、復調ネットワーク(denoising network)からなるIR(DiffIR)のための効率的なDMを提案する。
具体的には、DiffIRには2つのトレーニングステージがある。
事前トレーニングでは, CPEN$_{S1}$に接地画像を入力することで, コンパクトIR先行表現(IPR)を捕捉し, DIRformerを誘導する。
第2段階では、LQ画像のみを用いて事前訓練されたCPEN$_{S1}$と同じIRPを直接推定するようにDMを訓練する。
IPRはコンパクトなベクトルであるため、DiffIRは従来のDMよりも少ないイテレーションで正確な推定を行い、より安定でリアルな結果を生成することができる。
繰り返しは少ないので、我々のDiffIRはCPEN$_{S2}$, DIRformer, denoising Networkを併用することで、推定誤差の影響をさらに低減することができる。
計算コストを削減しつつ、複数のIRタスクを広範囲に実験し、SOTA性能を達成する。
関連論文リスト
- CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Towards Lightweight Super-Resolution with Dual Regression Learning [73.86924594746884]
深層ニューラルネットワークは、画像超解像(SR)タスクにおいて顕著な性能を示した。
本稿では、SRマッピングの可能な空間を削減するために、二重回帰学習方式を提案する。
また, 層レベルでもチャネルレベルでもモデル冗長性を低減するために, 軽量な二重回帰圧縮法を提案する。
論文 参考訳(メタデータ) (2022-07-16T12:46:10Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Learning Multiple Probabilistic Degradation Generators for Unsupervised
Real World Image Super Resolution [5.987801889633082]
教師なしの現実世界のスーパーレゾリューションは、ペア化されたデータが利用できない場合に、低解像度(LR)入力を与えられた高解像度(HR)イメージを復元することを目的としている。
最も一般的なアプローチの1つは、GANを使ってノイズの多いLR画像を合成し、合成データセットを使用してモデルを教師付きで訓練することである。
HR画像が与えられたLR画像の分布を近似する確率分解生成器を提案する。
論文 参考訳(メタデータ) (2022-01-26T04:49:11Z) - SRDiff: Single Image Super-Resolution with Diffusion Probabilistic
Models [19.17571465274627]
単一の画像スーパーリゾリューション(SISR)は、与えられた低リゾリューション(LR)画像から高解像度(HR)画像を再構成することを目的とする。
新規な単像超解像拡散確率モデル(SRDiff)を提案する。
SRDiffはデータ可能性の変動境界の変種に最適化されており、多様で現実的なSR予測を提供することができる。
論文 参考訳(メタデータ) (2021-04-30T12:31:25Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Single-Image HDR Reconstruction by Learning to Reverse the Camera
Pipeline [100.5353614588565]
本稿では,LDR画像形成パイプラインの領域知識をモデルに組み込むことを提案する。
我々は,HDRto-LDR画像形成パイプラインを(1)ダイナミックレンジクリッピング,(2)カメラ応答関数からの非線形マッピング,(3)量子化としてモデル化する。
提案手法は,最先端の単一画像HDR再構成アルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-04-02T17:59:04Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。