論文の概要: Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2405.12003v4
- Date: Sat, 13 Jul 2024 08:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 00:36:09.277835
- Title: Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification
- Title(参考訳): Mamba-in-Mamba:Tokenized Mamba Modelにおけるハイパースペクトル画像分類のための集中型Mamba-Cross-Scan
- Authors: Weilian Zhou, Sei-Ichiro Kamata, Haipeng Wang, Man-Sing Wong, Huiying, Hou,
- Abstract要約: 本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 4.389334324926174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperspectral image (HSI) classification is pivotal in the remote sensing (RS) field, particularly with the advancement of deep learning techniques. Sequential models, adapted from the natural language processing (NLP) field such as Recurrent Neural Networks (RNNs) and Transformers, have been tailored to this task, offering a unique viewpoint. However, several challenges persist 1) RNNs struggle with centric feature aggregation and are sensitive to interfering pixels, 2) Transformers require significant computational resources and often underperform with limited HSI training samples, and 3) Current scanning methods for converting images into sequence-data are simplistic and inefficient. In response, this study introduces the innovative Mamba-in-Mamba (MiM) architecture for HSI classification, the first attempt of deploying State Space Model (SSM) in this task. The MiM model includes 1) A novel centralized Mamba-Cross-Scan (MCS) mechanism for transforming images into sequence-data, 2) A Tokenized Mamba (T-Mamba) encoder that incorporates a Gaussian Decay Mask (GDM), a Semantic Token Learner (STL), and a Semantic Token Fuser (STF) for enhanced feature generation and concentration, and 3) A Weighted MCS Fusion (WMF) module coupled with a Multi-Scale Loss Design to improve decoding efficiency. Experimental results from three public HSI datasets with fixed and disjoint training-testing samples demonstrate that our method outperforms existing baselines and state-of-the-art approaches, highlighting its efficacy and potential in HSI applications.
- Abstract(参考訳): ハイパースペクトル画像(HSI)分類は、リモートセンシング(RS)分野、特に深層学習技術の進歩において重要である。
RNN(Recurrent Neural Networks)やTransformers(Transformers)といった自然言語処理(NLP)の分野に適応したシーケンスモデルは、このタスクに特化しており、ユニークな視点を提供している。
しかし、いくつかの課題が続いている。
1)RNNは中心的特徴集約に苦慮し,画素干渉に敏感である。
2)変換器は重要な計算資源を必要とし、しばしば限られたHSIトレーニングサンプルで性能が低下する。
3) 画像からシーケンスデータに変換する現在の走査法は, 単純かつ非効率である。
そこで本研究では,HSI分類のための新しいMamba-in-Mamba(MiM)アーキテクチャを導入する。
MiM モデルには
1) 画像からシーケンスデータへ変換する新しい集中型マンバ・クロススキャン(MCS)機構
2)ガウス式Decay Mask(GDM)、STL(Semantic Token Learner)、STF(Semantic Token Fuser)を内蔵したT-Mambaエンコーダ
3) 重み付きMCSフュージョン(WMF)モジュールとマルチスケールロスデザインを組み合わせることで復号効率を向上する。
固定および非結合型トレーニング-テストサンプルを用いた3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れ,HSIアプリケーションの有効性と可能性を強調した。
関連論文リスト
- MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation [6.578088710294546]
従来のセグメンテーション手法は、高い解剖学的変動、ぼやけた組織の境界、低い臓器コントラスト、ノイズといった課題に対処するのに苦労する。
MLLA-UNet(Mamba-like Linear Attention UNet)を提案する。
MLLA-UNetは、FLARE22、AMOS CT、ACDCに限らず、24の異なるセグメンテーションタスクを持つ6つの挑戦的なデータセットに対して、平均88.32%の最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-10-31T08:54:23Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Hi-Mamba: Hierarchical Mamba for Efficient Image Super-Resolution [42.259283231048954]
状態空間モデル(SSM)は、線形複雑性を伴う長距離依存性をモデル化する上で、強力な表現能力を示している。
画像超解像(SR)のための新しい階層型マンバネットワーク、すなわちHi-Mambaを提案する。
論文 参考訳(メタデータ) (2024-10-14T04:15:04Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Spatial-Spectral Morphological Mamba for Hyperspectral Image Classification [27.04370747400184]
本稿では,まずハイパースペクトル画像パッチを空間スペクトルトークンに変換するトークン生成モジュールである空間スペクトル形態マンバ(MorpMamba)モデルを提案する。
これらのトークンはモルフォロジー演算によって処理され、奥行き分離可能な畳み込み演算を用いて構造情報と形状情報を計算する。
広く使われているHSIデータセットの実験では、MorpMambaモデルはCNNモデルとTransformerモデルの両方で(パラメトリック効率)優れていた。
論文 参考訳(メタデータ) (2024-08-02T16:28:51Z) - GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Self-Prior Guided Mamba-UNet Networks for Medical Image Super-Resolution [7.97504951029884]
医用画像超解像のための自己優先型マンバ-UNetネットワーク(SMamba-UNet)を提案する。
提案手法は,Mamba-UNetネットワーク下での自己優先型マルチスケールコンテキスト特徴を学習することを目的としている。
論文 参考訳(メタデータ) (2024-07-08T14:41:53Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Spectral-Spatial Mamba for Hyperspectral Image Classification [23.215920983979426]
スペクトル空間マンバ(SS-Mamba)は高スペクトル画像(HSI)分類に適用される。
提案されたSS-マンバは、主にスペクトル空間トークン生成モジュールと、いくつかの積層スペクトル空間マンバブロックから構成される。
広く利用されているHSIデータセットを用いた実験結果から,提案モデルが競合する結果が得られることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T03:36:05Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。