論文の概要: A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion
- arxiv url: http://arxiv.org/abs/2404.09293v1
- Date: Sun, 14 Apr 2024 16:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:38:22.300725
- Title: A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion
- Title(参考訳): 局所的拡張と状態共有による画像融合のための新しい状態空間モデル
- Authors: Zihan Cao, Xiao Wu, Liang-Jian Deng, Yu Zhong,
- Abstract要約: 状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
- 参考スコア(独自算出の注目度): 14.293042131263924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In image fusion tasks, images from different sources possess distinct characteristics. This has driven the development of numerous methods to explore better ways of fusing them while preserving their respective characteristics. Mamba, as a state space model, has emerged in the field of natural language processing. Recently, many studies have attempted to extend Mamba to vision tasks. However, due to the nature of images different from casual language sequences, the limited state capacity of Mamba weakens its ability to model image information. Additionally, the sequence modeling ability of Mamba is only capable of spatial information and cannot effectively capture the rich spectral information in images. Motivated by these challenges, we customize and improve the vision Mamba network designed for the image fusion task. Specifically, we propose the local-enhanced vision Mamba block, dubbed as LEVM. The LEVM block can improve local information perception of the network and simultaneously learn local and global spatial information. Furthermore, we propose the state sharing technique to enhance spatial details and integrate spatial and spectral information. Finally, the overall network is a multi-scale structure based on vision Mamba, called LE-Mamba. Extensive experiments show the proposed methods achieve state-of-the-art results on multispectral pansharpening and multispectral and hyperspectral image fusion datasets, and demonstrate the effectiveness of the proposed approach. Code will be made available.
- Abstract(参考訳): 画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
これにより、様々な手法が開発され、それぞれの特性を保ちながら、それらを融合させるより良い方法が研究されるようになった。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
近年、多くの研究がマンバを視覚タスクに拡張しようと試みている。
しかし、カジュアルな言語配列とは異なる画像の性質のため、マンバの限られた状態容量は画像情報をモデル化する能力を弱める。
さらに、マンバのシーケンスモデリング能力は空間情報しか得られず、画像中のリッチスペクトル情報を効果的にキャプチャできない。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
具体的には、LEVMと呼ばれるローカル拡張ビジョンのMambaブロックを提案する。
LEVMブロックは、ネットワークのローカル情報知覚を改善し、同時にローカルおよびグローバル空間情報を学ぶことができる。
さらに,空間的詳細性を高め,空間的・スペクトル的情報を統合するための状態共有手法を提案する。
最後に、全体的なネットワークはLE-Mambaと呼ばれる視覚マンバに基づくマルチスケール構造である。
広汎な実験により,マルチスペクトル・ハイパースペクトル画像融合データセットを用いて,提案手法の有効性を実証し,提案手法の有効性を実証した。
コードは利用可能になる。
関連論文リスト
- Vision Mamba: A Comprehensive Survey and Taxonomy [11.025533218561284]
状態空間モデル (State Space Model, SSM) は、動的システムの振る舞いを記述・解析するために用いられる数学的モデルである。
最新の状態空間モデルに基づいて、Mambaは時間変化パラメータをSSMにマージし、効率的なトレーニングと推論のためのハードウェア認識アルゴリズムを定式化する。
Mambaは、Transformerを上回る可能性のある、新たなAIアーキテクチャになることが期待されている。
論文 参考訳(メタデータ) (2024-05-07T15:30:14Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - FusionMamba: Efficient Image Fusion with State Space Model [35.57157248152558]
FusionMambaは、効率的な画像融合のための革新的な方法である。
本稿では,空間的特徴とスペクトル的特徴を効率よく,独立的に,階層的に抽出する新しいアーキテクチャを提案する。
空間情報とスペクトル情報を効果的に組み合わせるために,両入力に対応するため,Mambaブロックを拡張した。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - RSMamba: Remote Sensing Image Classification with State Space Model [25.32283897448209]
リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
論文 参考訳(メタデータ) (2024-03-28T17:59:49Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Pan-Mamba: Effective pan-sharpening with State Space Model [21.032910745931936]
パン・マンバ(Pan-Mamba)は,グローバルな情報モデリングにおいて,マンバモデルの効率性を活用する新しいパン・シャーピングネットワークである。
提案手法は最先端の手法を超越し,パンシャーピングにおいて優れた融合結果を示す。
この研究は、マンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。
論文 参考訳(メタデータ) (2024-02-19T14:54:54Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。