論文の概要: Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration
- arxiv url: http://arxiv.org/abs/2308.08730v3
- Date: Tue, 29 Aug 2023 08:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 17:27:34.251727
- Title: Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration
- Title(参考訳): 画像復元のための粗粒拡散トランスの学習
- Authors: Liyan Wang, Qinyu Yang, Cong Wang, Wei Wang, Jinshan Pan, Zhixun Su
- Abstract要約: 画像復元のための粗大な拡散変換器(C2F-DFT)を提案する。
C2F-DFTは拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)を含んでいる
粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。
- 参考スコア(独自算出の注目度): 39.071637725773314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the remarkable performance of diffusion models in
various vision tasks. However, for image restoration that aims to recover clear
images with sharper details from given degraded observations, diffusion-based
methods may fail to recover promising results due to inaccurate noise
estimation. Moreover, simple constraining noises cannot effectively learn
complex degradation information, which subsequently hinders the model capacity.
To solve the above problems, we propose a coarse-to-fine diffusion Transformer
(C2F-DFT) for image restoration. Specifically, our C2F-DFT contains diffusion
self-attention (DFSA) and diffusion feed-forward network (DFN) within a new
coarse-to-fine training scheme. The DFSA and DFN respectively capture the
long-range diffusion dependencies and learn hierarchy diffusion representation
to facilitate better restoration. In the coarse training stage, our C2F-DFT
estimates noises and then generates the final clean image by a sampling
algorithm. To further improve the restoration quality, we propose a simple yet
effective fine training scheme. It first exploits the coarse-trained diffusion
model with fixed steps to generate restoration results, which then would be
constrained with corresponding ground-truth ones to optimize the models to
remedy the unsatisfactory results affected by inaccurate noise estimation.
Extensive experiments show that C2F-DFT significantly outperforms
diffusion-based restoration method IR-SDE and achieves competitive performance
compared with Transformer-based state-of-the-art methods on $3$ tasks,
including deraining, deblurring, and real denoising. The code is available at
https://github.com/wlydlut/C2F-DFT.
- Abstract(参考訳): 近年,様々な視覚課題における拡散モデルの性能が顕著に向上している。
しかし, 得られた劣化観測からより鮮明な詳細で鮮明な画像を復元することを目的とした画像復元では, 不正確な雑音推定による予測結果の回復に失敗する可能性がある。
さらに、単純な制約ノイズは、複雑な劣化情報を効果的に学習できないため、モデルの容量を阻害する。
そこで本稿では,画像復元のための粗粒拡散トランス(c2f-dft)を提案する。
具体的には,このC2F-DFTには拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)が含まれている。
dfsaとdfnはそれぞれ長距離拡散依存性を捕捉し、階層拡散表現を学習し、より良い修復を容易にする。
粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。
修復の質をさらに高めるため,簡易かつ効果的な訓練手法を提案する。
まず, 粗トレーニング拡散モデルを用いて復元結果の生成を行い, 不正確な騒音推定によって生じる不満足な結果を改善するためのモデル最適化を行う。
拡張実験により,C2F-DFTは拡散型修復法IR-SDEを著しく上回り,3ドルのタスクにおいて,トランスフォーマーをベースとした最先端手法と比較して高い性能を示した。
コードはhttps://github.com/wlydlut/C2F-DFTで公開されている。
関連論文リスト
- Frequency-Aware Guidance for Blind Image Restoration via Diffusion Models [20.898262207229873]
ブラインド画像復元は、低レベルの視覚タスクにおいて重要な課題である。
誘導拡散モデルは、視覚的画像復元において有望な結果を得た。
本稿では,様々な拡散モデルにプラグイン・アンド・プレイ方式で組み込むことができる新しい周波数対応誘導損失を提案する。
論文 参考訳(メタデータ) (2024-11-19T12:18:16Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - CoreDiff: Contextual Error-Modulated Generalized Diffusion Model for
Low-Dose CT Denoising and Generalization [41.64072751889151]
低線量CT(LDCT)画像は光子飢餓と電子ノイズによりノイズやアーティファクトに悩まされる。
本稿では,低用量CT (LDCT) 用新しいCOntextual eRror-modulated gEneralized Diffusion Model(CoreDiff)を提案する。
論文 参考訳(メタデータ) (2023-04-04T14:13:13Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。