論文の概要: Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method
based on Fast Fourier Convolution and ConvNeXt
- arxiv url: http://arxiv.org/abs/2305.04430v1
- Date: Mon, 8 May 2023 02:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:54:53.538445
- Title: Breaking Through the Haze: An Advanced Non-Homogeneous Dehazing Method
based on Fast Fourier Convolution and ConvNeXt
- Title(参考訳): ヘイズを突破する:高速フーリエ畳み込みとConvNeXtに基づく高度非均一脱ハージング法
- Authors: Han Zhou, Wei Dong, Yangyi Liu and Jun Chen
- Abstract要約: ヘイズは通常、低コントラスト、色の変化、構造歪みで劣化した画像につながる。
本稿では、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。
我々のモデルは、グローバルな文脈情報を効果的に探索し、知覚品質の高い画像を生成することができる。
- 参考スコア(独自算出の注目度): 14.917290578644424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Haze usually leads to deteriorated images with low contrast, color shift and
structural distortion. We observe that many deep learning based models exhibit
exceptional performance on removing homogeneous haze, but they usually fail to
address the challenge of non-homogeneous dehazing. Two main factors account for
this situation. Firstly, due to the intricate and non uniform distribution of
dense haze, the recovery of structural and chromatic features with high
fidelity is challenging, particularly in regions with heavy haze. Secondly, the
existing small scale datasets for non-homogeneous dehazing are inadequate to
support reliable learning of feature mappings between hazy images and their
corresponding haze-free counterparts by convolutional neural network
(CNN)-based models. To tackle these two challenges, we propose a novel two
branch network that leverages 2D discrete wavelete transform (DWT), fast
Fourier convolution (FFC) residual block and a pretrained ConvNeXt model.
Specifically, in the DWT-FFC frequency branch, our model exploits DWT to
capture more high-frequency features. Moreover, by taking advantage of the
large receptive field provided by FFC residual blocks, our model is able to
effectively explore global contextual information and produce images with
better perceptual quality. In the prior knowledge branch, an ImageNet
pretrained ConvNeXt as opposed to Res2Net is adopted. This enables our model to
learn more supplementary information and acquire a stronger generalization
ability. The feasibility and effectiveness of the proposed method is
demonstrated via extensive experiments and ablation studies. The code is
available at https://github.com/zhouh115/DWT-FFC.
- Abstract(参考訳): ヘイズは通常、コントラスト、色シフト、構造的歪みの少ない劣化画像に繋がる。
深層学習に基づくモデルの多くは、均一なヘイズを除去する際、例外的な性能を示すが、非均一なデハジングの課題に対処できないことが多い。
この状況には2つの要因がある。
第一に,高密度ヘイズが複雑かつ均一に分布するため,特に重いヘイズのある地域では,高忠実度で構造的・彩色的特徴の回復が困難である。
第2に,不均質なデハジングのための既存の小規模データセットは,畳み込みニューラルネットワーク(cnn)に基づくモデルにより,ヘイズ画像と対応するヘイズフリー画像間の特徴マッピングの信頼性の高い学習を支援するには不十分である。
これら2つの課題に対処するため、2次元離散ウェーブレット変換(DWT)、高速フーリエ畳み込み(FFC)残差ブロック、事前訓練されたConvNeXtモデルを活用する2つの分岐ネットワークを提案する。
具体的には、DWT-FFC周波数分岐において、DWTを利用してより高周波な特徴を捉える。
さらに,FFC残差ブロックによって提供される大きな受容場を利用して,グローバルな文脈情報を効果的に探索し,知覚品質の高い画像を生成することができる。
以前の知識ブランチでは、Res2Netとは対照的に、ImageNetが事前訓練したConvNeXtが採用されている。
これによってモデルはさらに補足的な情報を学び、より強固な一般化能力を得ることができます。
提案法の有効性と有効性を広範囲な実験とアブレーション実験により実証した。
コードはhttps://github.com/zhouh115/DWT-FFCで公開されている。
関連論文リスト
- LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Frequency Compensated Diffusion Model for Real-scene Dehazing [6.105813272271171]
本研究では,実ヘイズへの一般化を改善する条件付き拡散モデルに基づく脱ヘイズフレームワークについて考察する。
提案手法は, 実世界の画像において, 最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-08-21T06:50:44Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Learning A Coarse-to-Fine Diffusion Transformer for Image Restoration [39.071637725773314]
画像復元のための粗大な拡散変換器(C2F-DFT)を提案する。
C2F-DFTは拡散自己注意(DFSA)と拡散フィードフォワードネットワーク(DFN)を含んでいる
粗い訓練段階において,我々のC2F-DFTはノイズを推定し,サンプリングアルゴリズムにより最終クリーン画像を生成する。
論文 参考訳(メタデータ) (2023-08-17T01:59:59Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Self-Regression Learning for Blind Hyperspectral Image Fusion Without
Label [11.291055330647977]
ハイパースペクトル画像(HSI)を再構築した自己回帰学習法を提案し,観察モデルを推定する。
特に,hsiを復元するinvertible neural network (inn) と,観測モデルを推定する2つの完全連結ネットワーク (fcn) を採用している。
我々のモデルは、合成データと実世界のデータセットの両方で実験で最先端の手法を上回ることができる。
論文 参考訳(メタデータ) (2021-03-31T04:48:21Z) - A GAN-Based Input-Size Flexibility Model for Single Image Dehazing [16.83211957781034]
本稿では,単一画像デハジングの課題に焦点をあてる。
ヘイズフリーの画像を直接生成する新しいモデルを設計します。
この理由と画像サイズを考慮し,単一画像デハジングのための新たな入力サイズフレキシビリティ条件付き生成逆ネットワーク(cgan)を提案する。
論文 参考訳(メタデータ) (2021-02-19T08:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。