論文の概要: FusionMamba: Efficient Image Fusion with State Space Model
- arxiv url: http://arxiv.org/abs/2404.07932v1
- Date: Thu, 11 Apr 2024 17:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:01:15.240735
- Title: FusionMamba: Efficient Image Fusion with State Space Model
- Title(参考訳): FusionMamba: 状態空間モデルによる効率的な画像融合
- Authors: Siran Peng, Xiangyu Zhu, Haoyu Deng, Zhen Lei, Liang-Jian Deng,
- Abstract要約: FusionMambaは、効率的な画像融合のための革新的な方法である。
本稿では,空間的特徴とスペクトル的特徴を効率よく,独立的に,階層的に抽出する新しいアーキテクチャを提案する。
空間情報とスペクトル情報を効果的に組み合わせるために,両入力に対応するため,Mambaブロックを拡張した。
- 参考スコア(独自算出の注目度): 35.57157248152558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image fusion aims to generate a high-resolution multi/hyper-spectral image by combining a high-resolution image with limited spectral information and a low-resolution image with abundant spectral data. Current deep learning (DL)-based methods for image fusion primarily rely on CNNs or Transformers to extract features and merge different types of data. While CNNs are efficient, their receptive fields are limited, restricting their capacity to capture global context. Conversely, Transformers excel at learning global information but are hindered by their quadratic complexity. Fortunately, recent advancements in the State Space Model (SSM), particularly Mamba, offer a promising solution to this issue by enabling global awareness with linear complexity. However, there have been few attempts to explore the potential of SSM in information fusion, which is a crucial ability in domains like image fusion. Therefore, we propose FusionMamba, an innovative method for efficient image fusion. Our contributions mainly focus on two aspects. Firstly, recognizing that images from different sources possess distinct properties, we incorporate Mamba blocks into two U-shaped networks, presenting a novel architecture that extracts spatial and spectral features in an efficient, independent, and hierarchical manner. Secondly, to effectively combine spatial and spectral information, we extend the Mamba block to accommodate dual inputs. This expansion leads to the creation of a new module called the FusionMamba block, which outperforms existing fusion techniques such as concatenation and cross-attention. To validate FusionMamba's effectiveness, we conduct a series of experiments on five datasets related to three image fusion tasks. The quantitative and qualitative evaluation results demonstrate that our method achieves state-of-the-art (SOTA) performance, underscoring the superiority of FusionMamba.
- Abstract(参考訳): 画像融合は,高分解能画像と限られたスペクトル情報,高分解能画像と豊富なスペクトルデータを組み合わせることで,高分解能マルチ・ハイパスペクトル画像を生成することを目的としている。
画像融合のための現在のディープラーニング(DL)ベースの手法は、主にCNNやTransformerを使って特徴を抽出し、異なるタイプのデータをマージする。
CNNは効率的だが、受容野は限られており、グローバルなコンテキストを捉える能力に制限がある。
逆に、トランスフォーマーはグローバルな情報を学ぶのが得意だが、その二次的な複雑さによって妨げられる。
幸いなことに、ステートスペースモデル(SSM)の最近の進歩、特にMambaは、線形複雑性による世界的な認識を可能にすることで、この問題に対する有望な解決策を提供する。
しかし、画像融合のような領域において重要な機能である情報融合におけるSSMの可能性を探る試みは少ない。
そこで我々は,効率的な画像融合法であるFusionMambaを提案する。
私たちの貢献は主に2つの側面に焦点を当てています。
まず、異なるソースからの画像が異なる特性を持っていることを認識し、2つのU字型ネットワークにマンバブロックを組み込み、空間的特徴とスペクトル的特徴を効率的で独立的で階層的な方法で抽出する新しいアーキテクチャを提案する。
第二に、空間情報とスペクトル情報を効果的に組み合わせるために、二重入力に対応するためにマンバブロックを拡張する。
この拡張はFusionMambaブロックと呼ばれる新しいモジュールの作成につながります。
FusionMambaの有効性を検証するために、3つの画像融合タスクに関連する5つのデータセットについて一連の実験を行った。
定量的および定性的な評価結果から,FusionMambaの優位性を裏付けたSOTA(State-of-the-art)性能が得られた。
関連論文リスト
- Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion [15.79138560700532]
我々はTmambaと呼ばれる2分岐画像融合ネットワークを提案する。
線形トランスフォーマーとMambaで構成されており、線形複雑性を維持しながらグローバルなモデリング機能を備えている。
実験の結果、我々のTmambaは赤外線可視画像融合や医用画像融合など、複数の融合タスクにおいて有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-09-05T03:42:11Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Spatial-frequency Dual-Domain Feature Fusion Network for Low-Light Remote Sensing Image Enhancement [49.15531684596958]
低照度リモートセンシング画像強調のためのDFFN(Dual-Domain Feature Fusion Network)を提案する。
第1フェーズは振幅情報を学習して画像輝度を復元し、第2フェーズは位相情報を学習して詳細を洗練させる。
我々は、現在の暗光リモートセンシング画像強調におけるデータセットの欠如に対応するために、2つの暗光リモートセンシングデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-26T13:21:31Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。