論文の概要: Selective Transformer for Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2410.03171v2
- Date: Mon, 7 Oct 2024 14:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:14:31.077127
- Title: Selective Transformer for Hyperspectral Image Classification
- Title(参考訳): ハイパースペクトル画像分類のための選択変換器
- Authors: Yichu Xu, Di Wang, Lefei Zhang, Liangpei Zhang,
- Abstract要約: Transformerは、ハイパースペクトル画像(HSI)分類の分野で満足な結果を得た。
HSI分類のための新しい選択変換器(SFormer)を提案する。
SFormerは、空間情報とスペクトル情報の両方をキャプチャするための受容フィールドを動的に選択するように設計されている。
- 参考スコア(独自算出の注目度): 34.7051033596479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has achieved satisfactory results in the field of hyperspectral image (HSI) classification. However, existing Transformer models face two key challenges when dealing with HSI scenes characterized by diverse land cover types and rich spectral information: (1) fixed receptive field representation overlooks effective contextual information; (2) redundant self-attention feature representation. To address these limitations, we propose a novel Selective Transformer (SFormer) for HSI classification. The SFormer is designed to dynamically select receptive fields for capturing both spatial and spectral contextual information, while mitigating the impact of redundant data by prioritizing the most relevant features. This enables a highly accurate classification of the land covers of the HSI. Specifically, a Kernel Selective Transformer Block (KSTB) is first utilized to dynamically select an appropriate receptive field range to effectively extract spatial-spectral features. Furthermore, to capture the most crucial tokens, a Token Selective Transformer Block (TSTB) is introduced, which selects the most relevant tokens based on the ranking of attention scores for each query. Extensive experiments on four benchmark HSI datasets demonstrate that the proposed SFormer outperforms the state-of-the-art HSI classification models. The codes will be released.
- Abstract(参考訳): Transformerは、ハイパースペクトル画像(HSI)分類の分野で満足な結果を得た。
しかし、既存のトランスフォーマーモデルは、多様な土地被覆タイプと豊富なスペクトル情報によって特徴付けられるHSIシーンを扱う際に、2つの重要な課題に直面している。
これらの制約に対処するために,HSI分類のための新しい選択変換器(SFormer)を提案する。
SFormerは、空間的およびスペクトル的両方の情報をキャプチャするための受容的フィールドを動的に選択し、最も関連する特徴を優先順位付けすることで冗長データの影響を緩和するように設計されている。
これにより、HSIの土地被覆を高精度に分類することができる。
具体的には、まず、KSTB(Kernel Selective Transformer Block)を用いて、適切な受容領域を動的に選択し、空間スペクトルの特徴を効果的に抽出する。
さらに、最も重要なトークンをキャプチャするために、各クエリのアテンションスコアのランキングに基づいて最も関連性の高いトークンを選択するToken Selective Transformer Block(TSTB)が導入される。
4つのベンチマークHSIデータセットの大規模な実験により、提案されたSFormerは最先端のHSI分類モデルより優れていることが示された。
コードはリリースされます。
関連論文リスト
- Boosting Hyperspectral Image Classification with Gate-Shift-Fuse Mechanisms in a Novel CNN-Transformer Approach [8.982950112225264]
本稿では,GSFブロックと変圧器ブロックの2つの畳み込みブロックを含むHSI分類モデルを提案する。
GSFブロックは局所的および大域的空間スペクトルの特徴の抽出を強化するように設計されている。
HSI立方体からの情報の抽出を促進するために,効果的な注意機構モジュールも提案されている。
論文 参考訳(メタデータ) (2024-06-20T09:05:50Z) - Multiview Transformer: Rethinking Spatial Information in Hyperspectral
Image Classification [43.17196501332728]
ハイパースペクトル画像における各画素のランドカバーカテゴリの同定は、スペクトル情報と空間情報に依存する。
本稿では,シーン固有であるが本質的でない相関関係がHSIカブイドに記録される可能性があることを考察する。
本稿では、マルチビュー主成分分析(MPCA)、スペクトルエンコーダデコーダ(SED)、空間プールトークン化変換(SPTT)からなるHSI分類のためのマルチビュー変換器を提案する。
論文 参考訳(メタデータ) (2023-10-11T04:25:24Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - SAT: Size-Aware Transformer for 3D Point Cloud Semantic Segmentation [6.308766374923878]
本研究では、異なるサイズのオブジェクトに対して効果的な受容場を調整できるSize-Aware Transformer(SAT)を提案する。
SATは,各注意層にマルチスケール機能を導入し,各点の注意領域を適応的に選択できるようにする。
論文 参考訳(メタデータ) (2023-01-17T13:25:11Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Grafting Transformer on Automatically Designed Convolutional Neural
Network for Hyperspectral Image Classification [7.606096775949237]
ハイパースペクトル画像(HSI)分類は意思決定のホットトピックである。
ディープラーニングに基づくHSI分類法は有望な性能を達成した。
HSI分類のために、いくつかのニューラルアーキテクチャサーチ(NAS)アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2021-10-21T11:51:51Z) - Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。
各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。
我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文 参考訳(メタデータ) (2021-07-06T01:48:43Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。