論文の概要: Exploring State Space Model in Wavelet Domain: An Infrared and Visible Image Fusion Network via Wavelet Transform and State Space Model
- arxiv url: http://arxiv.org/abs/2503.18378v1
- Date: Mon, 24 Mar 2025 06:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:09.328608
- Title: Exploring State Space Model in Wavelet Domain: An Infrared and Visible Image Fusion Network via Wavelet Transform and State Space Model
- Title(参考訳): ウェーブレット領域における状態空間モデル探索:ウェーブレット変換と状態空間モデルによる赤外線可視画像融合ネットワーク
- Authors: Tianpei Zhang, Yiming Zhu, Jufeng Zhao, Guangmang Cui, Yuchen Zheng,
- Abstract要約: 本研究では、ウェーブレット変換と状態空間モデル(SSM)を統合するウェーブレット・マンバを提案する。
Wavelet-SSMモジュールは、ウェーブレットベースの周波数領域の特徴抽出とSSMによるグローバル情報抽出を組み込む。
提案手法は,現在の最先端手法と比較して,視覚的に魅力的な結果と優れた性能を両立させる。
- 参考スコア(独自算出の注目度): 8.392891463947661
- License:
- Abstract: Deep learning techniques have revolutionized the infrared and visible image fusion (IVIF), showing remarkable efficacy on complex scenarios. However, current methods do not fully combine frequency domain features with global semantic information, which will result in suboptimal extraction of global features across modalities and insufficient preservation of local texture details. To address these issues, we propose Wavelet-Mamba (W-Mamba), which integrates wavelet transform with the state-space model (SSM). Specifically, we introduce Wavelet-SSM module, which incorporates wavelet-based frequency domain feature extraction and global information extraction through SSM, thereby effectively capturing both global and local features. Additionally, we propose a cross-modal feature attention modulation, which facilitates efficient interaction and fusion between different modalities. The experimental results indicate that our method achieves both visually compelling results and superior performance compared to current state-of-the-art methods. Our code is available at https://github.com/Lmmh058/W-Mamba.
- Abstract(参考訳): 深層学習技術は、赤外線と可視画像融合(IVIF)に革命をもたらし、複雑なシナリオにおいて顕著な効果を示した。
しかし、現在の手法では周波数領域の特徴と大域的意味情報を完全に組み合わせていないため、大域的特徴の最適抽出や局所的なテクスチャの保存が不十分になる。
これらの問題に対処するために、ウェーブレット変換と状態空間モデル(SSM)を統合するウェーブレット・マンバ(W-Mamba)を提案する。
具体的には、ウェーブレットベースの周波数領域特徴抽出とSSMによるグローバル情報抽出を組み込んだWavelet-SSMモジュールを導入し、グローバル特徴とローカル特徴の両方を効果的にキャプチャする。
さらに,異なるモダリティ間の効率的な相互作用と融合を容易にするクロスモーダル機能アテンション変調を提案する。
実験結果から,本手法は現在の最先端手法と比較して,視覚的に説得力のある結果と優れた性能が得られることが示された。
私たちのコードはhttps://github.com/Lmmh058/W-Mamba.comで入手可能です。
関連論文リスト
- MATCNN: Infrared and Visible Image Fusion Method Based on Multi-scale CNN with Attention Transformer [21.603763071331667]
本稿では,アテンショントランスフォーマを用いたマルチスケール畳み込みニューラルネットワーク(MATCNN)に基づく,新しいクロスモーダル画像融合手法を提案する。
MATCNNは、MSFM(Multi-scale fusion Module)を用いて異なるスケールで局所的特徴を抽出し、グローバル特徴抽出モジュール(GFEM)を用いてグローバル特徴を抽出する。
情報マスクを用いて画像内の関連する詳細をラベル付けし、融合画像中の可視画像における赤外線画像および背景テクスチャにおける重要な情報保存の比率を高める。
論文 参考訳(メタデータ) (2025-02-04T03:09:54Z) - DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation [4.391439322050918]
拡散モデルのための新しい状態空間アーキテクチャを提案する。
入力画像の局所的特徴に対する帰納バイアスを高めるために,空間情報と周波数情報を利用する。
論文 参考訳(メタデータ) (2024-11-06T18:59:17Z) - SFDFusion: An Efficient Spatial-Frequency Domain Fusion Network for Infrared and Visible Image Fusion [11.46957526079837]
赤外線と可視画像の融合は、目立ったターゲットと豊かなテクスチャの詳細を持つ融合画像を生成することを目的としている。
本稿では、赤外・可視画像融合のための効率的な空間周波数領域融合ネットワークを提案する。
本手法は,様々な融合計測値と視覚効果に有意な利点を有する融合画像を生成する。
論文 参考訳(メタデータ) (2024-10-30T09:17:23Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - FusionMamba: Efficient Remote Sensing Image Fusion with State Space Model [35.57157248152558]
現在のディープラーニング(DL)手法は、典型的には、特徴抽出と情報統合のために畳み込みニューラルネットワーク(CNN)またはトランスフォーマーを使用する。
本研究では,効率的なリモートセンシング画像融合法であるFusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - RF-ULM: Ultrasound Localization Microscopy Learned from Radio-Frequency Wavefronts [7.652037892439504]
遅延とサムのビームフォーミングは、RF(Radio-Frequency)チャネルデータを不可逆的に減少させる。
RFウェーブフロントに埋め込まれたリッチなコンテキスト情報は、DNN(Deep Neural Networks)をローカライゼーションシナリオに挑戦する上で、非常に有望である。
本稿では,学習した特徴チャネルシャッフル,非最大抑圧,半グローバル畳み込みブロックを用いて,RFチャネルデータ中の散乱体を直接ローカライズすることを提案する。
論文 参考訳(メタデータ) (2023-10-02T18:41:23Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。