論文の概要: ECAFormer: Low-light Image Enhancement using Cross Attention
- arxiv url: http://arxiv.org/abs/2406.13281v3
- Date: Sun, 22 Dec 2024 11:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:31.385438
- Title: ECAFormer: Low-light Image Enhancement using Cross Attention
- Title(参考訳): ECAFormer: クロスアテンションを用いた低照度画像強調
- Authors: Yudi Ruan, Hao Ma, Weikai Li, Xiao Wang,
- Abstract要約: 低照度画像強調(LLIE)はコンピュータビジョンにおいて重要である。
我々はクロスアテンショントランス(ECAFormer)による階層的相互強化を設計する。
我々は,ECAFormerが複数のベンチマークで競合性能に到達し,PSNRを最適化法よりも3%近く改善したことを示す。
- 参考スコア(独自算出の注目度): 11.554554006307836
- License:
- Abstract: Low-light image enhancement (LLIE) is critical in computer vision. Existing LLIE methods often fail to discover the underlying relationships between different sub-components, causing the loss of complementary information between multiple modules and network layers, ultimately resulting in the loss of image details. To beat this shortage, we design a hierarchical mutual Enhancement via a Cross Attention transformer (ECAFormer), which introduces an architecture that enables concurrent propagation and interaction of multiple features. The model preserves detailed information by introducing a Dual Multi-head self-attention (DMSA), which leverages visual and semantic features across different scales, allowing them to guide and complement each other. Besides, a Cross-Scale DMSA block is introduced to capture the residual connection, integrating cross-layer information to further enhance image detail. Experimental results show that ECAFormer reaches competitive performance across multiple benchmarks, yielding nearly a 3% improvement in PSNR over the suboptimal method, demonstrating the effectiveness of information interaction in LLIE.
- Abstract(参考訳): 低照度画像強調(LLIE)はコンピュータビジョンにおいて重要である。
既存のLLIEメソッドは、異なるサブコンポーネント間の基盤となる関係を見つけるのに失敗し、複数のモジュールとネットワーク層の間で補完的な情報が失われ、最終的には画像の詳細が失われる。
この不足を克服するため,クロスアテンション・トランスフォーマー (ECAFormer) による階層的相互強化を設計し,複数の機能の同時伝搬と相互作用を可能にするアーキテクチャを導入する。
このモデルはDual Multi-head Self-attention (DMSA)を導入して詳細な情報を保存する。
さらに、残余接続を捕捉するために、クロススケールDMSAブロックを導入し、層間情報を統合して画像の詳細をさらに高めている。
実験の結果、ECAFormerは複数のベンチマークで競合性能を達成し、サブ最適化法よりもPSNRが約3%向上し、LLIEにおける情報インタラクションの有効性が示された。
関連論文リスト
- HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image
Enhancement in The Dark [119.01585302856103]
低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。
1)クロスビューの相互作用が不十分なこと,2)ビュー内学習に長距離依存が欠如していること,である。
SufrinNet(SufrinNet)を用いた新しいLLSIEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T04:01:30Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。