論文の概要: 3D-Convolution Guided Spectral-Spatial Transformer for Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2404.13252v1
- Date: Sat, 20 Apr 2024 03:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:49:10.310886
- Title: 3D-Convolution Guided Spectral-Spatial Transformer for Hyperspectral Image Classification
- Title(参考訳): ハイパースペクトル画像分類のための3次元畳み込み誘導スペクトル空間変換器
- Authors: Shyam Varahagiri, Aryaman Sinha, Shiv Ram Dubey, Satish Kumar Singh,
- Abstract要約: 視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)よりも有望な分類性能を示した
ViTはシーケンシャルなデータを出力するが、CNNのようなスペクトル空間情報を抽出することはできない。
HSI分類のための3次元畳み込み誘導スペクトル空間変換器(3D-ConvSST)を提案する。
- 参考スコア(独自算出の注目度): 12.729885732069926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Vision Transformers (ViTs) have shown promising classification performance over Convolutional Neural Networks (CNNs) due to their self-attention mechanism. Many researchers have incorporated ViTs for Hyperspectral Image (HSI) classification. HSIs are characterised by narrow contiguous spectral bands, providing rich spectral data. Although ViTs excel with sequential data, they cannot extract spectral-spatial information like CNNs. Furthermore, to have high classification performance, there should be a strong interaction between the HSI token and the class (CLS) token. To solve these issues, we propose a 3D-Convolution guided Spectral-Spatial Transformer (3D-ConvSST) for HSI classification that utilizes a 3D-Convolution Guided Residual Module (CGRM) in-between encoders to "fuse" the local spatial and spectral information and to enhance the feature propagation. Furthermore, we forego the class token and instead apply Global Average Pooling, which effectively encodes more discriminative and pertinent high-level features for classification. Extensive experiments have been conducted on three public HSI datasets to show the superiority of the proposed model over state-of-the-art traditional, convolutional, and Transformer models. The code is available at https://github.com/ShyamVarahagiri/3D-ConvSST.
- Abstract(参考訳): 近年、ビジョントランスフォーマー(ViT)は、自己認識機構のため、畳み込みニューラルネットワーク(CNN)よりも有望な分類性能を示している。
多くの研究者がハイパースペクトル画像(HSI)分類にViTを組み込んでいる。
HSIは狭いスペクトル帯域によって特徴づけられ、豊富なスペクトルデータを提供する。
ViTはシーケンシャルなデータを扱うが、CNNのようなスペクトル空間情報を抽出することはできない。
さらに、高い分類性能を持つためには、HSIトークンとクラス(CLS)トークンの間に強い相互作用がある必要がある。
これらの問題を解決するために、3D-Convolution Guided Residual Module (CGRM) を用いたHSI分類のための3D-Convolution Guided Spectral-Spatial Transformer (3D-ConvSST)を提案する。
さらに、クラストークンを前もってGlobal Average Poolingを適用し、より差別的で関連する高レベルな特徴を効果的にコード化します。
3つの公開HSIデータセットを用いて、最先端の伝統、畳み込み、トランスフォーマーモデルよりも提案モデルの方が優れていることを示す大規模な実験が行われた。
コードはhttps://github.com/ShyamVarahagiri/3D-ConvSSTで公開されている。
関連論文リスト
- Superpixel Graph Contrastive Clustering with Semantic-Invariant
Augmentations for Hyperspectral Images [64.72242126879503]
ハイパースペクトル画像(HSI)クラスタリングは重要な課題だが難しい課題である。
まず3次元と2次元のハイブリッド畳み込みニューラルネットワークを用いてHSIの高次空間およびスペクトルの特徴を抽出する。
次に,超画素グラフの対比クラスタリングモデルを設計し,識別的超画素表現を学習する。
論文 参考訳(メタデータ) (2024-03-04T07:40:55Z) - Hybrid Spectral Denoising Transformer with Guided Attention [34.34075175179669]
ハイブリットスペクトルデノナイジング用ハイブリットスペクトルデノナイジングトランス(HSDT)を提案する。
我々のHSDTは、計算オーバーヘッドを低く保ちながら、既存の最先端手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-16T02:24:31Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Learning A 3D-CNN and Transformer Prior for Hyperspectral Image
Super-Resolution [80.93870349019332]
本稿では,CNN の代わりに Transformer を用いて HSI の事前学習を行う新しい HSISR 手法を提案する。
具体的には、まず勾配アルゴリズムを用いてHSISRモデルを解き、次に展開ネットワークを用いて反復解過程をシミュレートする。
論文 参考訳(メタデータ) (2021-11-27T15:38:57Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z) - Hyperspectral Classification Based on Lightweight 3-D-CNN With Transfer
Learning [67.40866334083941]
限定サンプルに基づくHSI分類のためのエンドツーエンドの3次元軽量畳み込みニューラルネットワーク(CNN)を提案する。
従来の3D-CNNモデルと比較して,提案した3D-LWNetはネットワーク構造が深く,パラメータが小さく,計算コストも低い。
本モデルでは,HSI分類の競合性能を,いくつかの最先端手法と比較した。
論文 参考訳(メタデータ) (2020-12-07T03:44:35Z) - Hyperspectral Image Classification with Spatial Consistence Using Fully
Convolutional Spatial Propagation Network [9.583523548244683]
深部畳み込みニューラルネットワーク(CNN)は、高スペクトル画像(HSI)を表現できる印象的な能力を示している
本稿では,HSI分類のための新しいエンドツーエンドの画素間完全畳み込み空間伝搬ネットワーク(FCSPN)を提案する。
FCSPNは3次元完全畳み込みネットワーク(3D-FCN)と畳み込み空間伝播ネットワーク(CSPN)からなる。
論文 参考訳(メタデータ) (2020-08-04T09:05:52Z) - A Fast 3D CNN for Hyperspectral Image Classification [0.456877715768796]
ハイパースペクトルイメージング(HSI)は、多くの現実世界の用途に広く利用されている。
2次元畳み込みニューラルネットワーク(CNN)は、HSICがスペクトル空間情報の両方に大きく依存する、実行可能なアプローチである。
本研究は,空間スペクトル特徴写像を併用した3次元CNNモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T12:57:36Z) - Hyperspectral Classification Based on 3D Asymmetric Inception Network
with Data Fusion Transfer Learning [36.05574127972413]
私たちはまず、3D非対称なインセプションネットワークであるAINetを提供し、過度に適合する問題を克服します。
HSIデータの空間的コンテキストに対するスペクトルシグネチャの強調により、AINetはこの機能を効果的に伝達し、分類することができる。
論文 参考訳(メタデータ) (2020-02-11T06:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。