論文の概要: Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion
- arxiv url: http://arxiv.org/abs/2401.03788v2
- Date: Wed, 17 Apr 2024 07:41:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:10:55.493747
- Title: Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion
- Title(参考訳): CLIP-Fourierガイドウェーブレット拡散による低照度画像強調
- Authors: Minglong Xue, Jinhong He, Wenhai Wang, Mingliang Zhou,
- Abstract要約: 本稿では,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。
CFWDは、複数のウェーブレット変換によって生成される周波数領域空間におけるマルチモーダル視覚言語情報を活用して、拡張プロセスの導出を行う。
提案手法は既存の最先端手法よりも優れ,画像品質と雑音抑制の大幅な進歩を実現している。
- 参考スコア(独自算出の注目度): 28.049668999586583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-light image enhancement techniques have significantly progressed, but unstable image quality recovery and unsatisfactory visual perception are still significant challenges. To solve these problems, we propose a novel and robust low-light image enhancement method via CLIP-Fourier Guided Wavelet Diffusion, abbreviated as CFWD. Specifically, CFWD leverages multimodal visual-language information in the frequency domain space created by multiple wavelet transforms to guide the enhancement process. Multi-scale supervision across different modalities facilitates the alignment of image features with semantic features during the wavelet diffusion process, effectively bridging the gap between degraded and normal domains. Moreover, to further promote the effective recovery of the image details, we combine the Fourier transform based on the wavelet transform and construct a Hybrid High Frequency Perception Module (HFPM) with a significant perception of the detailed features. This module avoids the diversity confusion of the wavelet diffusion process by guiding the fine-grained structure recovery of the enhancement results to achieve favourable metric and perceptually oriented enhancement. Extensive quantitative and qualitative experiments on publicly available real-world benchmarks show that our approach outperforms existing state-of-the-art methods, achieving significant progress in image quality and noise suppression. The project code is available at https://github.com/hejh8/CFWD.
- Abstract(参考訳): 低照度画像強調技術は大幅に進歩しているが、画像品質の不安定な回復と不満足な視覚知覚は依然として重要な課題である。
これらの問題を解決するために,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。
具体的には、CFWDは多重ウェーブレット変換によって生成された周波数領域空間におけるマルチモーダル視覚言語情報を活用して、拡張プロセスの導出を行う。
異なるモダリティ間のマルチスケールの監視は、ウェーブレット拡散過程における画像特徴と意味的特徴のアライメントを促進し、劣化ドメインと正常ドメインのギャップを効果的に埋める。
さらに、画像詳細の有効回復をさらに促進するため、ウェーブレット変換に基づくフーリエ変換とハイブリッド高周波知覚モジュール(HFPM)を組み合わせ、詳細な特徴を顕著に認識する。
このモジュールは、拡張結果の微細な構造回復を導くことによって、ウェーブレット拡散過程の多様性の混乱を回避し、好適なメートル法と知覚指向のエンハンスメントを実現する。
公開されている実世界のベンチマークにおける大規模定量的および定性的な実験により、我々の手法は既存の最先端手法よりも優れており、画像品質とノイズ抑制の著しい進歩を達成している。
プロジェクトのコードはhttps://github.com/hejh8/CFWDで公開されている。
関連論文リスト
- Zero-Shot Low-Light Image Enhancement via Joint Frequency Domain Priors Guided Diffusion [2.3874115898130865]
拡散サンプリングプロセスにおける光と構造情報の欠如を補うため,新しいゼロショット低光強調法を提案する。
インスピレーションはウェーブレットとフーリエ周波数領域の類似性に由来する。
十分な実験は、フレームワークが堅牢で、様々なシナリオで有効であることを示している。
論文 参考訳(メタデータ) (2024-11-21T09:16:51Z) - Multi-scale Frequency Enhancement Network for Blind Image Deblurring [7.198959621445282]
視覚障害者のためのマルチスケール周波数拡張ネットワーク(MFENet)を提案する。
ぼやけた画像のマルチスケール空間およびチャネル情報をキャプチャするために,深度的に分離可能な畳み込みに基づくマルチスケール特徴抽出モジュール(MS-FE)を導入する。
提案手法は,視覚的品質と客観的評価の両指標において,優れた劣化性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-11-11T11:49:18Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Unveiling Advanced Frequency Disentanglement Paradigm for Low-Light Image Enhancement [61.22119364400268]
周波数不整合最適化を改良した新しい低周波整合性手法を提案する。
注目すべき改善点は5つの人気のあるベンチマークで示されており、6つの最先端モデルで達成されたPSNRの7.68dBのゲインである。
提案手法は,88K余剰パラメータで効率を保ち,低照度画像強調の挑戦的な領域に新たな標準を設定する。
論文 参考訳(メタデータ) (2024-09-03T06:19:03Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Gated Multi-Resolution Transfer Network for Burst Restoration and
Enhancement [75.25451566988565]
低画質の原画像のバーストから空間的精度の高い高画質画像を再構成する新しいGated Multi-Resolution Transfer Network (GMTNet)を提案する。
5つのデータセットに関する詳細な実験分析は、我々のアプローチを検証し、バースト超解像、バーストデノイング、低照度バーストエンハンスメントのための最先端技術を設定する。
論文 参考訳(メタデータ) (2023-04-13T17:54:00Z) - Towards Robust Image-in-Audio Deep Steganography [14.1081872409308]
本稿では,その堅牢性向上に焦点をあて,既存の音響深部ステガノグラフィー手法を拡張し,拡張する。
提案した機能拡張には、損失関数の修正、短い時間フーリエ変換(STFT)の利用、誤り訂正のための符号化プロセスにおける冗長性の導入、ピクセルサブ畳み込み操作における追加情報のバッファリングが含まれる。
論文 参考訳(メタデータ) (2023-03-09T03:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。