論文の概要: Pan-Mamba: Effective pan-sharpening with State Space Model
- arxiv url: http://arxiv.org/abs/2402.12192v2
- Date: Sat, 9 Mar 2024 03:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:12:59.059974
- Title: Pan-Mamba: Effective pan-sharpening with State Space Model
- Title(参考訳): pan-mamba: 状態空間モデルによる効果的なパンシャープ化
- Authors: Xuanhua He, Ke Cao, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man
Zhou
- Abstract要約: パン・マンバ(Pan-Mamba)は,グローバルな情報モデリングにおいて,マンバモデルの効率性を活用する新しいパン・シャーピングネットワークである。
提案手法は最先端の手法を超越し,パンシャーピングにおいて優れた融合結果を示す。
この研究は、マンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。
- 参考スコア(独自算出の注目度): 21.032910745931936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pan-sharpening involves integrating information from low-resolution
multi-spectral and high-resolution panchromatic images to generate
high-resolution multi-spectral counterparts. While recent advancements in the
state space model, particularly the efficient long-range dependency modeling
achieved by Mamba, have revolutionized computer vision community, its untapped
potential in pan-sharpening motivates our exploration. Our contribution,
Pan-Mamba, represents a novel pan-sharpening network that leverages the
efficiency of the Mamba model in global information modeling. In Pan-Mamba, we
customize two core components: channel swapping Mamba and cross-modal Mamba,
strategically designed for efficient cross-modal information exchange and
fusion. The former initiates a lightweight cross-modal interaction through the
exchange of partial panchromatic and multi-spectral channels, while the latter
facilities the information representation capability by exploiting inherent
cross-modal relationships. Through extensive experiments across diverse
datasets, our proposed approach surpasses state-of-the-art methods, showcasing
superior fusion results in pan-sharpening. To the best of our knowledge, this
work is the first attempt in exploring the potential of the Mamba model and
establishes a new frontier in the pan-sharpening techniques. The source code is
available at \url{https://github.com/alexhe101/Pan-Mamba}.
- Abstract(参考訳): パンシャーピングは、高解像度のマルチスペクトルと高解像度のパンクロマティック画像からの情報を統合することで、高解像度のマルチスペクトルを生成する。
状態空間モデルの最近の進歩、特にmambaによって達成された効率的な長距離依存性モデリングは、コンピュータビジョンコミュニティに革命をもたらした。
コントリビューションであるPan-Mambaは,グローバル情報モデリングにおけるMambaモデルの効率性を活用した,新しいパンシャーピングネットワークである。
pan-mambaでは、チャネルスワッピングmambaとクロスモーダルmambaの2つのコアコンポーネントをカスタマイズし、効率的なクロスモーダル情報交換と融合のために戦略的に設計された。
前者は部分的なパンクロマティックチャネルとマルチスペクトルチャネルの交換を通じて軽量なクロスモーダル相互作用を開始し、後者は固有なクロスモーダル関係を利用して情報表現能力を実現する。
多様なデータセットにまたがる広範な実験を通じて,提案手法は最先端の手法を上回り,パンシャープ化に優れた融合結果を示す。
我々の知る限りでは、この研究はマンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。
ソースコードは \url{https://github.com/alexhe101/Pan-Mamba} で入手できる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion [28.543822934210404]
マルチモーダル画像融合は、異なるモーダルからの相補的な情報を統合して、強化された情報的画像を生成する。
本稿では,固定シーケンススキャンに伴うバイアスを取り除くために,ランダムシャッフルと呼ばれるバイーシアンに着想を得た新しいスキャン手法を提案する。
我々は,モンテカルロ平均化に基づくテスト手法を開発し,モデルの出力が期待される結果とより密に一致することを保証する。
論文 参考訳(メタデータ) (2024-09-03T09:12:18Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。
マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。
本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文 参考訳(メタデータ) (2024-06-24T15:27:21Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。