論文の概要: Dual Selective Fusion Transformer Network for Hyperspectral Image Classification
- arxiv url: http://arxiv.org/abs/2410.03171v3
- Date: Wed, 26 Feb 2025 07:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:53:31.554554
- Title: Dual Selective Fusion Transformer Network for Hyperspectral Image Classification
- Title(参考訳): ハイパースペクトル画像分類のためのデュアル選択型核融合変圧器ネットワーク
- Authors: Yichu Xu, Di Wang, Lefei Zhang, Liangpei Zhang,
- Abstract要約: Transformerは、ハイパースペクトル画像(HSI)分類の分野で満足な結果を得た。
既存のトランスフォーマーモデルは、多様な土地被覆タイプと豊富なスペクトル情報によって特徴付けられるHSIシーンを扱う際に、2つの重要な課題に直面している。
HSI分類のための新しいDual Selective Fusion Transformer Network (DSFormer)を提案する。
- 参考スコア(独自算出の注目度): 34.7051033596479
- License:
- Abstract: Transformer has achieved satisfactory results in the field of hyperspectral image (HSI) classification. However, existing Transformer models face two key challenges when dealing with HSI scenes characterized by diverse land cover types and rich spectral information: (1) A fixed receptive field overlooks the effective contextual scales required by various HSI objects; (2) invalid self-attention features in context fusion affect model performance. To address these limitations, we propose a novel Dual Selective Fusion Transformer Network (DSFormer) for HSI classification. DSFormer achieves joint spatial and spectral contextual modeling by flexibly selecting and fusing features across different receptive fields, effectively reducing unnecessary information interference by focusing on the most relevant spatial-spectral tokens. Specifically, we design a Kernel Selective Fusion Transformer Block (KSFTB) to learn an optimal receptive field by adaptively fusing spatial and spectral features across different scales, enhancing the model's ability to accurately identify diverse HSI objects. Additionally, we introduce a Token Selective Fusion Transformer Block (TSFTB), which strategically selects and combines essential tokens during the spatial-spectral self-attention fusion process to capture the most crucial contexts. Extensive experiments conducted on four benchmark HSI datasets demonstrate that the proposed DSFormer significantly improves land cover classification accuracy, outperforming existing state-of-the-art methods. Specifically, DSFormer achieves overall accuracies of 96.59%, 97.66%, 95.17%, and 94.59% in the Pavia University, Houston, Indian Pines, and Whu-HongHu datasets, respectively, reflecting improvements of 3.19%, 1.14%, 0.91%, and 2.80% over the previous model. The code will be available online at https://github.com/YichuXu/DSFormer.
- Abstract(参考訳): Transformerは、ハイパースペクトル画像(HSI)分類の分野で満足な結果を得た。
しかし、既存のトランスフォーマーモデルは、多様な土地被覆タイプと豊富なスペクトル情報によって特徴付けられるHSIシーンを扱う際に、2つの重要な課題に直面している。
これらの制約に対処するため,HSI分類のための新しいDual Selective Fusion Transformer Network (DSFormer)を提案する。
DSFormerは、異なる受容領域にまたがる特徴を柔軟に選択・融合し、最も関連性の高い空間スペクトルトークンに着目して、不要な情報干渉を効果的に低減することにより、共同空間およびスペクトルコンテキストモデリングを実現する。
具体的には,KSFTB(Kernel Selective Fusion Transformer Block)を設計し,様々なスケールの空間的特徴とスペクトル的特徴を適応的に融合させ,多様なHSIオブジェクトを正確に識別する能力を向上させる。
さらに,TSFTB(Token Selective Fusion Transformer Block)を導入し,空間スペクトル自己注意融合プロセスにおいて重要なトークンを戦略的に選択・結合し,最も重要なコンテキストを捉える。
4つのベンチマークHSIデータセットで実施された大規模な実験により、提案したDSFormerは土地被覆分類の精度を大幅に向上し、既存の最先端手法よりも優れていることが示された。
具体的には、DSFormerはパヴィア大学、ヒューストン大学、インドパインズ、フー・ホンフーのデータセットで96.59%、97.66%、95.17%、94.59%の精度を達成し、前モデルよりも3.19%、1.14%、0.91%、および2.80%の改善を反映している。
コードはhttps://github.com/YichuXu/DSFormer.comからオンラインで入手できる。
関連論文リスト
- When Segmentation Meets Hyperspectral Image: New Paradigm for Hyperspectral Image Classification [4.179738334055251]
ハイパースペクトル画像(HSI)分類は、リモートセンシングの基盤であり、豊富なスペクトル情報を通じて正確な材料と土地被覆の識別を可能にする。
ディープラーニングはこのタスクに大きな進歩をもたらしたが、小さなパッチベースの分類器は進歩の90%以上を占めており、制限に直面している。
本研究では, HSI分類のための新しいパラダイムとベースラインであるHSIsegを提案し, これらの課題を克服するために, 分割手法と新しい動的シフト地域変換器(DSRT)を組み合わせる。
論文 参考訳(メタデータ) (2025-02-18T05:04:29Z) - Dynamic Token Selection for Aerial-Ground Person Re-Identification [0.36832029288386137]
AGPReIDに適した新しい動的トークン選択変換器(DTST)を提案する。
入力画像を複数のトークンに分割し、各トークンは画像内のユニークな領域や特徴を表す。
我々はTop-k戦略を用いて、識別に不可欠な重要な情報を含む最も重要なトークンkを抽出する。
論文 参考訳(メタデータ) (2024-11-30T11:07:11Z) - Boosting Hyperspectral Image Classification with Gate-Shift-Fuse Mechanisms in a Novel CNN-Transformer Approach [8.982950112225264]
本稿では,GSFブロックと変圧器ブロックの2つの畳み込みブロックを含むHSI分類モデルを提案する。
GSFブロックは局所的および大域的空間スペクトルの特徴の抽出を強化するように設計されている。
HSI立方体からの情報の抽出を促進するために,効果的な注意機構モジュールも提案されている。
論文 参考訳(メタデータ) (2024-06-20T09:05:50Z) - Multiview Transformer: Rethinking Spatial Information in Hyperspectral
Image Classification [43.17196501332728]
ハイパースペクトル画像における各画素のランドカバーカテゴリの同定は、スペクトル情報と空間情報に依存する。
本稿では,シーン固有であるが本質的でない相関関係がHSIカブイドに記録される可能性があることを考察する。
本稿では、マルチビュー主成分分析(MPCA)、スペクトルエンコーダデコーダ(SED)、空間プールトークン化変換(SPTT)からなるHSI分類のためのマルチビュー変換器を提案する。
論文 参考訳(メタデータ) (2023-10-11T04:25:24Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Grafting Transformer on Automatically Designed Convolutional Neural
Network for Hyperspectral Image Classification [7.606096775949237]
ハイパースペクトル画像(HSI)分類は意思決定のホットトピックである。
ディープラーニングに基づくHSI分類法は有望な性能を達成した。
HSI分類のために、いくつかのニューラルアーキテクチャサーチ(NAS)アルゴリズムが提案されている。
論文 参考訳(メタデータ) (2021-10-21T11:51:51Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。