論文の概要: Mutual-Guided Dynamic Network for Image Fusion
- arxiv url: http://arxiv.org/abs/2308.12538v2
- Date: Fri, 1 Sep 2023 04:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 16:03:25.403922
- Title: Mutual-Guided Dynamic Network for Image Fusion
- Title(参考訳): 画像融合のための相互誘導動的ネットワーク
- Authors: Yuanshen Guan, Ruikang Xu, Mingde Yao, Lizhi Wang, Zhiwei Xiong
- Abstract要約: 画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 51.615598671899335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion aims to generate a high-quality image from multiple images
captured under varying conditions. The key problem of this task is to preserve
complementary information while filtering out irrelevant information for the
fused result. However, existing methods address this problem by leveraging
static convolutional neural networks (CNNs), suffering two inherent limitations
during feature extraction, i.e., being unable to handle spatial-variant
contents and lacking guidance from multiple inputs. In this paper, we propose a
novel mutual-guided dynamic network (MGDN) for image fusion, which allows for
effective information utilization across different locations and inputs.
Specifically, we design a mutual-guided dynamic filter (MGDF) for adaptive
feature extraction, composed of a mutual-guided cross-attention (MGCA) module
and a dynamic filter predictor, where the former incorporates additional
guidance from different inputs and the latter generates spatial-variant kernels
for different locations. In addition, we introduce a parallel feature fusion
(PFF) module to effectively fuse local and global information of the extracted
features. To further reduce the redundancy among the extracted features while
simultaneously preserving their shared structural information, we devise a
novel loss function that combines the minimization of normalized mutual
information (NMI) with an estimated gradient mask. Experimental results on five
benchmark datasets demonstrate that our proposed method outperforms existing
methods on four image fusion tasks. The code and model are publicly available
at: https://github.com/Guanys-dar/MGDN.
- Abstract(参考訳): 画像融合は、様々な条件下で撮影された複数の画像から高品質な画像を生成することを目的としている。
このタスクの鍵となる問題は、融合結果の無関係情報をフィルタリングしながら補完情報を保存することである。
しかし、既存の手法では静的畳み込みニューラルネットワーク(cnns)を活用することでこの問題に対処しており、特徴抽出中に固有の2つの制限、すなわち空間的変動コンテンツの処理ができず、複数の入力からのガイダンスが欠如している。
本稿では,画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
具体的には,相互誘導型クロスアテンション(mgca)モジュールと動的フィルタ予測器からなる適応的特徴抽出のための相互誘導型動的フィルタ(mgdf)の設計を行った。
さらに,抽出した特徴の局所的およびグローバル的情報を効果的に融合する並列特徴融合(PFF)モジュールを導入する。
共有構造情報を同時に保存しながら抽出した特徴間の冗長性をさらに低減するため,正規化相互情報(NMI)の最小化と推定勾配マスクを組み合わせた新たな損失関数を考案した。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
コードとモデルは、https://github.com/Guanys-dar/MGDNで公開されている。
関連論文リスト
- DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Accurate and lightweight dehazing via multi-receptive-field non-local
network and novel contrastive regularization [9.90146712189936]
本稿では,マルチ受信フィールド非局所ネットワーク(MRFNLN)を提案する。
マルチストリーム機能アテンションブロック(MSFAB)とクロス非ローカルブロック(CNLB)として設計されている。
これは、150万のパラメータ未満の最近の最先端の脱ハージング手法よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T14:59:16Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Inertial Sensor Data To Image Encoding For Human Action Recognition [0.0]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。
本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。
マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
論文 参考訳(メタデータ) (2021-05-28T01:22:52Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。