論文の概要: Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing
- arxiv url: http://arxiv.org/abs/2308.06998v1
- Date: Mon, 14 Aug 2023 08:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:56:19.883237
- Title: Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing
- Title(参考訳): 効率的な画像デハジングのための相互情報駆動型トリプルインタラクションネットワーク
- Authors: Hao Shen, Zhong-Qiu Zhao, Yulun Zhang, Zhao Zhang
- Abstract要約: 画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
- 参考スコア(独自算出の注目度): 54.168567276280505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-stage architectures have exhibited efficacy in image dehazing, which
usually decomposes a challenging task into multiple more tractable sub-tasks
and progressively estimates latent hazy-free images. Despite the remarkable
progress, existing methods still suffer from the following shortcomings: (1)
limited exploration of frequency domain information; (2) insufficient
information interaction; (3) severe feature redundancy. To remedy these issues,
we propose a novel Mutual Information-driven Triple interaction Network
(MITNet) based on spatial-frequency dual domain information and two-stage
architecture. To be specific, the first stage, named amplitude-guided haze
removal, aims to recover the amplitude spectrum of the hazy images for haze
removal. And the second stage, named phase-guided structure refined, devotes to
learning the transformation and refinement of the phase spectrum. To facilitate
the information exchange between two stages, an Adaptive Triple Interaction
Module (ATIM) is developed to simultaneously aggregate cross-domain,
cross-scale, and cross-stage features, where the fused features are further
used to generate content-adaptive dynamic filters so that applying them to
enhance global context representation. In addition, we impose the mutual
information minimization constraint on paired scale encoder and decoder
features from both stages. Such an operation can effectively reduce information
redundancy and enhance cross-stage feature complementarity. Extensive
experiments on multiple public datasets exhibit that our MITNet performs
superior performance with lower model complexity.The code and models are
available at https://github.com/it-hao/MITNet.
- Abstract(参考訳): マルチステージアーキテクチャは画像デハジングにおいて有効性を示しており、通常は困難なタスクをより扱いやすいサブタスクに分解し、潜在的なハジンフリー画像を段階的に見積もる。
顕著な進歩にもかかわらず、既存の手法は、(1)周波数領域情報の限られた探索、(2)情報相互作用の不足、(3)深刻な特徴冗長性、という欠点に苦しめられている。
そこで本稿では,空間周波数デュアルドメイン情報と2段階アーキテクチャに基づく情報駆動型トリプルインタラクションネットワーク(mitnet)を提案する。
具体的には、振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
そして、位相誘導構造と呼ばれる第2段階は、位相スペクトルの変換と微細化を学ぶことに熱心である。
2段階間の情報交換を容易にするため、アダプティブ・トリプル・インタラクション・モジュール(ATIM)が開発され、クロスドメイン、クロススケール、クロスステージの機能を同時に集約する。
さらに,両段からペア化スケールエンコーダとデコーダ機能に対して,相互情報最小化制約を課す。
このような操作は、情報冗長性を効果的に低減し、段間特徴相補性を高める。
複数の公開データセットに関する大規模な実験によると、私たちのMITNetは、より低いモデルの複雑さで優れたパフォーマンスを発揮しています。
関連論文リスト
- Low-light Stereo Image Enhancement and De-noising in the Low-frequency
Information Enhanced Image Space [5.1569866461097185]
同時に高音化・低音化を行う手法が提案されている。
低周波情報拡張モジュール (IEM) は雑音を抑え, 新たな画像空間を創出するために提案される。
長距離空間依存を符号化するために,チャネル間および空間コンテキスト情報マイニングモジュール(CSM)を提案する。
エンコーダ-デコーダ構造が構築され、クロスビューとクロススケールな特徴相互作用が組み込まれている。
論文 参考訳(メタデータ) (2024-01-15T15:03:32Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing
Image Segmentation [66.31941110777734]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Decomposing and Coupling Saliency Map for Lesion Segmentation in
Ultrasound Images [10.423431415758655]
超音波画像の複雑なシナリオは、隣接する組織が類似の強度を共有し、よりリッチなテクスチャパターンを含むことで、正確な病変のセグメンテーションに固有の課題をもたらす。
この研究はDC-Netと呼ばれる分解結合ネットワークを示し、(地上背景)サリエンシマップのアンタングルメント・フュージョン方式でこの問題に対処する。
提案手法は2つの超音波病変セグメンテーションタスクで評価され,既存の最先端手法よりも顕著な性能向上を示す。
論文 参考訳(メタデータ) (2023-08-02T05:02:30Z) - SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image
Enhancement in The Dark [119.01585302856103]
低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。
1)クロスビューの相互作用が不十分なこと,2)ビュー内学習に長距離依存が欠如していること,である。
SufrinNet(SufrinNet)を用いた新しいLLSIEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T04:01:30Z) - An Efficient End-to-End Transformer with Progressive Tri-modal Attention
for Multi-modal Emotion Recognition [27.96711773593048]
本稿では,マルチモーダル・エンド・ツー・エンド・トランス (ME2ET) を提案する。
低レベルにおいては、2パス戦略を採用することで、3モーダルな特徴相互作用をモデル化できるプログレッシブ・トリモーダル・アテンションを提案する。
高いレベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
論文 参考訳(メタデータ) (2022-09-20T14:51:38Z) - GridDehazeNet+: An Enhanced Multi-Scale Network with Intra-Task
Knowledge Transfer for Single Image Dehazing [12.982905875008214]
GridDehazeNet+と呼ばれる強化されたマルチスケールネットワークを提案します。
プリプロセス、バックボーン、後処理の3つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-25T17:35:36Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。