論文の概要: Multi-Scale Spectral Attention Module-based Hyperspectral Segmentation in Autonomous Driving Scenarios
- arxiv url: http://arxiv.org/abs/2506.18682v1
- Date: Mon, 23 Jun 2025 14:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.021871
- Title: Multi-Scale Spectral Attention Module-based Hyperspectral Segmentation in Autonomous Driving Scenarios
- Title(参考訳): 自律走行シナリオにおけるマルチスケール分光アテンションモジュールを用いたハイパースペクトルセグメンテーション
- Authors: Imad Ali Shah, Jiarong Li, Tim Brophy, Martin Glavin, Edward Jones, Enda Ward, Brian Deegan,
- Abstract要約: 本稿では,スペクトル特徴抽出を強化したマルチスケール分光アテンションモジュール(MSAM)を提案する。
MSAMをUNetのスキップ接続(UNet-SC)に統合することにより,提案したUNet-MSAMはセマンティックセグメンテーション性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 3.437245452211197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in autonomous driving (AD) have highlighted the potential of Hyperspectral Imaging (HSI) for enhanced environmental perception, particularly in challenging weather and lighting conditions. However, efficiently processing its high-dimensional spectral data remains a significant challenge. This paper introduces a Multi-scale Spectral Attention Module (MSAM) that enhances spectral feature extraction through three parallel 1D convolutions with varying kernel sizes between 1 to 11, coupled with an adaptive feature aggregation mechanism. By integrating MSAM into UNet's skip connections (UNet-SC), our proposed UNet-MSAM achieves significant improvements in semantic segmentation performance across multiple HSI datasets: HyKo-VIS v2, HSI-Drive v2, and Hyperspectral City v2. Our comprehensive experiments demonstrate that with minimal computational overhead (on average 0.02% in parameters and 0.82% GFLOPS), UNet-MSAM consistently outperforms UNet-SC, achieving average improvements of 3.61% in mean IoU and 3.80% in mF1 across the three datasets. Through extensive ablation studies, we have established that multi-scale kernel combinations perform better than single-scale configurations. These findings demonstrate the potential of HSI processing for AD and provide valuable insights into designing robust, multi-scale spectral feature extractors for real-world applications.
- Abstract(参考訳): 自律運転(AD)の最近の進歩は、特に困難な気象や照明条件において、環境認識を高めるためのハイパースペクトルイメージング(HSI)の可能性を強調している。
しかし、その高次元スペクトルデータを効率的に処理することは重要な課題である。
本稿では,1~11のカーネルサイズが異なる3つの並列1次元畳み込みによるスペクトル特徴抽出と適応的特徴集約機構を併用したマルチスケールスペクトルアテンションモジュール(MSAM)を提案する。
提案するUNet-MSAMは,MSAMをUNetのスキップ接続(UNet-SC)に統合することにより,Hyko-VIS v2,HSI-Drive v2,Hyperspectral City v2といった複数のHSIデータセット間のセマンティックセグメンテーション性能を大幅に向上させる。
包括的な実験により、UNet-MSAMは最小の計算オーバーヘッド(パラメータの0.02%、GFLOPSの0.82%)で一貫してUNet-SCを上回っ、平均IoUが3.61%、mF1が3つのデータセットで3.80%向上した。
大規模なアブレーション研究により、マルチスケールカーネルの組み合わせはシングルスケール構成よりも優れた性能を発揮することが判明した。
これらの結果は、ADのためのHSI処理の可能性を示し、実世界のアプリケーションのための堅牢でマルチスケールなスペクトル特徴抽出器の設計に関する貴重な洞察を提供する。
関連論文リスト
- MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction [15.656771219382076]
MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。
これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。
実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
論文 参考訳(メタデータ) (2025-04-22T13:33:26Z) - S3TU-Net: Structured Convolution and Superpixel Transformer for Lung Nodule Segmentation [5.2752693301728355]
マルチ次元空間コネクタとスーパーピクセルベースの視覚変換器を統合したセグメンテーションモデルS3TU-Netを提案する。
S3TU-NetはマルチビューCNN-Transformerハイブリッドアーキテクチャ上に構築されており、スーパーピクセルアルゴリズム、構造化重み付け、空間シフト技術が組み込まれている。
LIDC-IDRIデータセットの実験結果は、S3TU-Netがそれぞれ89.04%、90.73%、90.70%のDSC、精度、IoUを達成したことを示している。
論文 参考訳(メタデータ) (2024-11-19T15:00:18Z) - HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文 参考訳(メタデータ) (2024-07-02T09:51:56Z) - HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model [88.13261547704444]
Hyper SIGMAは、タスクやシーン間でHSI解釈を統合するビジョントランスフォーマーベースの基礎モデルである。
さらに,約450Kのハイパースペクトル画像を含む,事前学習のための大規模ハイパースペクトルデータセットHyperGlobal-450Kを構築した。
論文 参考訳(メタデータ) (2024-06-17T13:22:58Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - HSIDMamba: Exploring Bidirectional State-Space Models for Hyperspectral Denoising [11.022546457796949]
本研究では,HSIにおける空間スペクトル依存性を効果的に捉えるために,線形複雑性を利用したHSIDMamba(HSDM)を提案する。
HSDMは複数のハイパースペクトル連続走査ブロックから構成され、BCSM(Bidirectional Continuous Scanning Mechanism)、スケール残留、スペクトル注意機構が組み込まれている。
BCSMは、前向きと後向きのスキャンをリンクし、SSMを介して8方向の情報を強化することにより、空間-スペクトル相互作用を強化する。
論文 参考訳(メタデータ) (2024-04-15T11:59:19Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - ESSAformer: Efficient Transformer for Hyperspectral Image
Super-resolution [76.7408734079706]
単一ハイパースペクトル像超解像(単一HSI-SR)は、低分解能観測から高分解能ハイパースペクトル像を復元することを目的としている。
本稿では,1つのHSI-SRの繰り返し精製構造を持つESSA注目組込みトランスフォーマネットワークであるESSAformerを提案する。
論文 参考訳(メタデータ) (2023-07-26T07:45:14Z) - Hybrid Spectral Denoising Transformer with Guided Attention [34.34075175179669]
ハイブリットスペクトルデノナイジング用ハイブリットスペクトルデノナイジングトランス(HSDT)を提案する。
我々のHSDTは、計算オーバーヘッドを低く保ちながら、既存の最先端手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-16T02:24:31Z) - Cross-Attention in Coupled Unmixing Nets for Unsupervised Hyperspectral
Super-Resolution [79.97180849505294]
本稿では,HSIの空間分解能を高めるために,CUCaNetというクロスアテンション機構を備えた新しい結合型アンミックスネットワークを提案する。
3つの広く使われているHS-MSデータセットに対して、最先端のHSI-SRモデルと比較実験を行った。
論文 参考訳(メタデータ) (2020-07-10T08:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。