論文の概要: ConvVitMamba: Efficient Multiscale Convolution, Transformer, and Mamba-Based Sequence modelling for Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2604.18856v1
- Date: Mon, 20 Apr 2026 21:26:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.505311
- Title: ConvVitMamba: Efficient Multiscale Convolution, Transformer, and Mamba-Based Sequence modelling for Hyperspectral Image Classification
- Title(参考訳): ConvVitMamba: ハイパースペクトル画像分類のための効率的なマルチスケール畳み込み、トランスフォーマー、およびマンバに基づくシーケンスモデリング
- Authors: Mohammed Q. Alkhatib,
- Abstract要約: ハイパスペクトル画像(HSI)分類は、高スペクトル次元、冗長性、ラベル付きデータによって依然として困難である。
ConvVitMambaと呼ばれる統合ハイブリッドフレームワークが、効率的なHSI分類のために提案されている。
このアーキテクチャは、3つのコンポーネントを統合する: 局所スペクトル、空間、関節パターンをキャプチャするマルチスケール畳み込み特徴抽出器、グローバルなコンテキスト関係をモデル化するビジョントランスフォーマーベースのトークン化とエンコーディングステージ、効率的なコンテンツ認識のための軽量なMambaインスパイアされたゲート配列混合モジュール。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperspectral image (HSI) classification remains challenging due to high spectral dimensionality, redundancy, and limited labeled data. Although convolutional neural networks (CNNs) and Vision Transformers (ViTs) achieve strong performance by exploiting spectral-spatial information and long-range dependencies, they often incur high computational cost and large model size, limiting practical use. To address these limitations, a unified hybrid framework, termed ConvVitMamba, is proposed for efficient HSI classification. The architecture integrates three components: a multiscale convolutional feature extractor to capture local spectral, spatial, and joint patterns; a Vision Transformer based tokenization and encoding stage to model global contextual relationships; and a lightweight Mamba inspired gated sequence mixing module for efficient content-aware refinement without quadratic self-attention. Principal Component Analysis (PCA) is used as preprocessing to reduce redundancy and improve efficiency. Experiments on four benchmark datasets, including Houston and three UAV borne QUH datasets (Pingan, Qingyun, and Tangdaowan), demonstrate that ConvVitMamba consistently outperforms CNN, Transformer, and Mamba based methods while maintaining a favorable balance between accuracy, model size, and inference efficiency. Ablation studies confirm the complementary contributions of all components. The results indicate that the proposed framework provides an effective and efficient solution for HSI classification in diverse scenarios. The source code is publicly available at https://github.com/mqalkhatib/ConvVitMamba
- Abstract(参考訳): ハイパスペクトル画像(HSI)分類は、高スペクトル次元、冗長性、ラベル付きデータによって依然として困難である。
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)はスペクトル空間情報と長距離依存を利用して高い性能を達成するが、しばしば高い計算コストと大きなモデルサイズを発生させ、実用的な使用を制限する。
これらの制約に対処するため、効率的なHSI分類のために、ConvVitMambaと呼ばれる統合ハイブリッドフレームワークが提案されている。
このアーキテクチャは、3つのコンポーネントを統合する: 局所スペクトル、空間、関節パターンをキャプチャするマルチスケール畳み込み特徴抽出器、グローバルなコンテキスト関係をモデル化するビジョントランスフォーマーベースのトークン化およびエンコーディングステージ、および2次自己注意を伴わない効率的なコンテンツ認識改善のための軽量なMambaインスパイアされたゲートシーケンス混合モジュール。
主成分分析(PCA)は、冗長性の低減と効率の向上のために前処理として用いられる。
ヒューストンとUAV搭載の3つのQUHデータセット(Pingan、Qingyun、Tangdaowan)を含む4つのベンチマークデータセットの実験では、ConvVitMambaはCNN、Transformer、Mambaベースの手法より一貫して優れており、精度、モデルサイズ、推論効率のバランスが良好である。
アブレーション研究は全ての成分の相補的な寄与を裏付ける。
その結果,提案フレームワークは多様なシナリオにおけるHSI分類を効果的かつ効率的に行うことができることがわかった。
ソースコードはhttps://github.com/mqalkhatib/ConvVitMambaで公開されている。
関連論文リスト
- VP-Hype: A Hybrid Mamba-Transformer Framework with Visual-Textual Prompting for Hyperspectral Image Classification [8.232394238006167]
VP-Hypeは、状態空間モデルの線形時間効率と変換器のリレーショナルモデリングを統合することで、HSI分類を再考するフレームワークである。
堅牢な3D-CNNスペクトルフロントエンド上に構築されたVP-Hypeは、従来のアテンションブロックをHybrid Mamba-Transformerバックボーンに置き換える。
トレーニングサンプルの分布は2%に過ぎず、Salinasデータセットで99.69%、Longkouデータセットで99.45%の総合精度(OA)を達成した。
論文 参考訳(メタデータ) (2026-03-01T16:24:09Z) - MambaMIL+: Modeling Long-Term Contextual Patterns for Gigapixel Whole Slide Image [24.093388981091717]
多重インスタンス学習(MIL)は、各WSIをパッチレベルのインスタンスの袋として扱うことでソリューションを提供する。
Mambaは長いシーケンス学習のための有望な代替手段として登場し、数千のトークンに線形にスケーリングしている。
長距離依存性モデリングを維持しながら空間コンテキストを明示的に統合する新しいMILフレームワークであるMambaMIL+を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:01:14Z) - MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。