論文の概要: LoLA-SpecViT: Local Attention SwiGLU Vision Transformer with LoRA for Hyperspectral Imaging
- arxiv url: http://arxiv.org/abs/2506.17759v1
- Date: Sat, 21 Jun 2025 16:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.569397
- Title: LoLA-SpecViT: Local Attention SwiGLU Vision Transformer with LoRA for Hyperspectral Imaging
- Title(参考訳): LoLA-SpecViT:ハイパースペクトルイメージング用LoRAを用いた局所アテンションSwiGLU視覚変換器
- Authors: Fadi Abdeladhim Zidi, Djamel Eddine Boukhari, Abdellah Zakaria Sellam, Abdelkrim Ouafi, Cosimo Distante, Salah Eddine Bekhouche, Abdelmalik Taleb-Ahmed,
- Abstract要約: 軽量なスペクトルビジョン変換器であるtextbfLoLA-SpecViT (Low-rank adaptation Local Attention Spectral Vision Transformer) を提案する。
提案モデルでは,3次元畳み込みスペクトルフロントエンドと局所窓ベースの自己アテンションを組み合わせ,スペクトル特徴抽出と空間一貫性の両立を図る。
我々のフレームワークは、農業、環境モニタリング、リモートセンシング分析における実世界のHSIアプリケーションに対して、スケーラブルで一般化可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 6.360399841791849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyperspectral image classification remains a challenging task due to the high dimensionality of spectral data, significant inter-band redundancy, and the limited availability of annotated samples. While recent transformer-based models have improved the global modeling of spectral-spatial dependencies, their scalability and adaptability under label-scarce conditions remain limited. In this work, we propose \textbf{LoLA-SpecViT}(Low-rank adaptation Local Attention Spectral Vision Transformer), a lightweight spectral vision transformer that addresses these limitations through a parameter-efficient architecture tailored to the unique characteristics of hyperspectral imagery. Our model combines a 3D convolutional spectral front-end with local window-based self-attention, enhancing both spectral feature extraction and spatial consistency while reducing computational complexity. To further improve adaptability, we integrate low-rank adaptation (LoRA) into attention and projection layers, enabling fine-tuning with over 80\% fewer trainable parameters. A novel cyclical learning rate scheduler modulates LoRA adaptation strength during training, improving convergence and generalisation. Extensive experiments on three benchmark datasets WHU-Hi LongKou, WHU-Hi HongHu, and Salinas demonstrate that LoLA-SpecViT consistently outperforms state-of-the-art baselines, achieving up to 99.91\% accuracy with substantially fewer parameters and enhanced robustness under low-label regimes. The proposed framework provides a scalable and generalizable solution for real-world HSI applications in agriculture, environmental monitoring, and remote sensing analytics. Our code is available in the following \href{https://github.com/FadiZidiDz/LoLA-SpecViT}{GitHub Repository}.
- Abstract(参考訳): ハイパースペクトル画像分類は、スペクトルデータの高次元性、バンド間の有意な冗長性、注釈付きサンプルの限られた可用性のために、依然として困難な課題である。
最近のトランスフォーマーベースモデルではスペクトル空間依存性のグローバルなモデリングが改善されているが、そのスケーラビリティとラベルスカース条件下での適応性は限定的のままである。
本稿では,ハイパースペクトル画像の特徴に合わせたパラメータ効率の高いアーキテクチャを用いて,これらの制約に対処する軽量なスペクトルビジョン変換器である,ローカルアテンション・スペクトラル・ビジョン・トランスフォーマ(Low-rank adaptation Local Attention Spectral Vision Transformer)を提案する。
提案モデルは,3次元畳み込みスペクトルフロントエンドと局所窓ベースの自己アテンションを組み合わせることで,スペクトルの特徴抽出と空間的一貫性を両立させ,計算複雑性を低減させる。
適応性をさらに向上するため、低ランク適応(LoRA)を注意層と投射層に統合し、トレーニング可能なパラメータを80%以上削減した微調整を可能にする。
新しい循環学習速度スケジューラは、トレーニング中にLoRA適応強度を変調し、収束と一般化を改善する。
WHU-Hi LongKou、WHU-Hi HongHu、Sainasの3つのベンチマークデータセットの大規模な実験では、LoLA-SpecViTは最先端のベースラインを一貫して上回り、パラメータが大幅に小さくなり、低ラベル体制下で堅牢性が向上した。
提案するフレームワークは、農業、環境モニタリング、リモートセンシング分析における実世界のHSIアプリケーションに対して、スケーラブルで一般化可能なソリューションを提供する。
私たちのコードは以下のとおりである。
関連論文リスト
- Adaptive Clustering for Efficient Phenotype Segmentation of UAV Hyperspectral Data [1.6135226672466307]
無人航空機 (UAV) とハイパースペクトルイメージング (HSI) が組み合わさって、環境および農業用途の可能性を秘めている。
本稿では,リアルタイムツリー表現型セグメンテーションのためのオンラインハイパースペクトル簡易線形反復クラスタリングアルゴリズム(OHSLIC)を提案する。
論文 参考訳(メタデータ) (2025-01-17T13:48:04Z) - Unleashing Correlation and Continuity for Hyperspectral Reconstruction from RGB Images [64.80875911446937]
RGB画像からのHSI再構成のための相関連続性ネットワーク(CCNet)を提案する。
局所スペクトルの相関について,GrSCM(Group-wise Spectral correlation Modeling)モジュールを紹介する。
グローバルスペクトルの連続性のために、我々はNeSCMモジュールを設計する。
論文 参考訳(メタデータ) (2025-01-02T15:14:40Z) - DiffFormer: a Differential Spatial-Spectral Transformer for Hyperspectral Image Classification [3.271106943956333]
超スペクトル画像分類(HSIC)は、高次元データをスペクトル情報と空間情報で分析する可能性から注目されている。
本稿では、スペクトル冗長性や空間不連続性といったHSICの固有の課題に対処するために、差分空間スペクトル変換器(DiffFormer)を提案する。
ベンチマークハイパースペクトルデータセットの実験は、分類精度、計算効率、一般化可能性の観点から、DiffFormerの優位性を示す。
論文 参考訳(メタデータ) (2024-12-23T07:21:41Z) - HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model [88.13261547704444]
Hyper SIGMAは、タスクやシーン間でHSI解釈を統合するビジョントランスフォーマーベースの基礎モデルである。
さらに,約450Kのハイパースペクトル画像を含む,事前学習のための大規模ハイパースペクトルデータセットHyperGlobal-450Kを構築した。
論文 参考訳(メタデータ) (2024-06-17T13:22:58Z) - Diffusion-based Light Field Synthesis [50.24624071354433]
LFdiffは、LF合成に適した拡散ベースの生成フレームワークである。
本稿では,遠絡型雑音推定ネットワークDistgUnetを提案する。
広範囲な実験により、LFdiffは視覚的に快く、不均一に制御可能な光電場を合成する際に優れていることが示されている。
論文 参考訳(メタデータ) (2024-02-01T13:13:16Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Hybrid Spectral Denoising Transformer with Guided Attention [34.34075175179669]
ハイブリットスペクトルデノナイジング用ハイブリットスペクトルデノナイジングトランス(HSDT)を提案する。
我々のHSDTは、計算オーバーヘッドを低く保ちながら、既存の最先端手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-16T02:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。