論文の概要: Pan-Mamba: Effective pan-sharpening with State Space Model
- arxiv url: http://arxiv.org/abs/2402.12192v1
- Date: Mon, 19 Feb 2024 14:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:28:50.289593
- Title: Pan-Mamba: Effective pan-sharpening with State Space Model
- Title(参考訳): pan-mamba: 状態空間モデルによる効果的なパンシャープ化
- Authors: Xuanhua He, Ke Cao, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man
Zhou
- Abstract要約: パン・マンバ(Pan-Mamba)は,グローバルな情報モデリングにおいて,マンバモデルの効率性を活用する新しいパンシャーピングネットワークである。
Pan-Mambaでは、チャンネルスワップのMambaとクロスモーダルのMambaの2つのコアコンポーネントをカスタマイズします。
この研究は、マンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。
- 参考スコア(独自算出の注目度): 21.032910745931936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pan-sharpening involves integrating information from lowresolution
multi-spectral and high-resolution panchromatic images to generate
high-resolution multi-spectral counterparts. While recent advancements in the
state space model, particularly the efficient long-range dependency modeling
achieved by Mamba, have revolutionized computer vision community, its untapped
potential in pan-sharpening motivates our exploration. Our contribution,
Pan-Mamba, represents a novel pansharpening network that leverages the
efficiency of the Mamba model in global information modeling. In Pan-Mamba, we
customize two core components: channel swapping Mamba and cross-modal Mamba,
strategically designed for efficient cross-modal information exchange and
fusion. The former initiates a lightweight cross-modal interaction through the
exchange of partial panchromatic and multispectral channels, while the latter
facilities the information representation capability by exploiting inherent
cross-modal relationships. Through extensive experiments across diverse
datasets, our proposed approach surpasses state-of-theart methods, showcasing
superior fusion results in pan-sharpening. To the best of our knowledge, this
work is the first attempt in exploring the potential of the Mamba model and
establishes a new frontier in the pan-sharpening techniques. The source code is
available at https://github.com/alexhe101/Pan-Mamba .
- Abstract(参考訳): パンシャーピングは、高解像度のマルチスペクトルと高解像度のパンクロマティック画像からの情報を統合することで、高解像度のマルチスペクトルを生成する。
状態空間モデルの最近の進歩、特にmambaによって達成された効率的な長距離依存性モデリングは、コンピュータビジョンコミュニティに革命をもたらした。
コントリビューションであるPan-Mambaは,グローバル情報モデリングにおけるMambaモデルの効率性を活用した,新しいパンシャーピングネットワークである。
pan-mambaでは、チャネルスワッピングmambaとクロスモーダルmambaの2つのコアコンポーネントをカスタマイズし、効率的なクロスモーダル情報交換と融合のために戦略的に設計された。
前者は部分的なパンクロマティックチャネルとマルチスペクトルチャネルの交換を通じて軽量なクロスモーダル相互作用を開始し、後者は固有なクロスモーダル関係を利用して情報表現能力を実現する。
多様なデータセットにまたがる広範な実験を通じて,提案手法は最先端の手法を上回り,パンシャープ化に優れた融合結果を示す。
我々の知る限りでは、この研究はマンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。
ソースコードはhttps://github.com/alexhe101/pan-mambaで入手できる。
関連論文リスト
- SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion [14.293042131263924]
状態空間モデルとしてのMambaは自然言語処理の分野で登場している。
これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。
論文 参考訳(メタデータ) (2024-04-14T16:09:33Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - FusionMamba: Efficient Image Fusion with State Space Model [35.57157248152558]
FusionMambaは、効率的な画像融合のための革新的な方法である。
本稿では,空間的特徴とスペクトル的特徴を効率よく,独立的に,階層的に抽出する新しいアーキテクチャを提案する。
空間情報とスペクトル情報を効果的に組み合わせるために,両入力に対応するため,Mambaブロックを拡張した。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。