論文の概要: HyperVision: A Channel-Adaptive Ground-Based Hyperspectral Vision Pre-trained Backbone
- arxiv url: http://arxiv.org/abs/2605.17286v1
- Date: Sun, 17 May 2026 06:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.83023
- Title: HyperVision: A Channel-Adaptive Ground-Based Hyperspectral Vision Pre-trained Backbone
- Title(参考訳): HyperVision: チャネル適応型地上型ハイパースペクトルビジョン事前トレーニングバックボーン
- Authors: Guanyiman Fu, Jingtao Li, Zihang Cheng, Zhuanfeng Li, Diqi Chen, Yan Xu, Fengchao Xiong, Jianfeng Lu, Jun Zhou,
- Abstract要約: 本研究は,第1の地上高スペクトル事前トレーニングバックボーンであるHyperVisionを提案する。
26の異なる地上ベースデータセットから15kイメージの収集に事前訓練されている。
タスク固有の方法と比較して最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 20.52608763146186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While hyperspectral imaging provides rich spatial-spectral information across hundreds of narrow wavelength bands for precise material identification, ground-based hyperspectral pre-trained backbones remain absent, constrained by varying spectral configurations across sensors, the scarcity and inconsistency of labels, and the limited scale and scene diversity of existing datasets. To address these challenges and enable universal perception, we propose HyperVision, the first ground-based hyperspectral pre-trained backbone. First, to handle varying spectral configurations, HyperVision adopts a channel-adaptive dynamic embedding mechanism to map heterogeneous inputs into a unified token space. Second, to address the scarcity and inconsistency of labels, we introduce a multi-source pseudo-labeling method that fuses semantic representations from both spatial structures generated by SAM2 and fine-grained spectral material information extracted by HyperFree. Third, to compensate for limited dataset scale and enrich scene diversity, a cross-modal knowledge distillation mechanism is utilized to transfer rich semantic representations from a pre-trained RGB vision model to our hyperspectral backbone. Pre-trained on a collection of 15k images from 26 diverse ground-based datasets, HyperVision demonstrates exceptional generalization. Requiring only efficient head-only adaptation without adjusting backbone parameters, it achieves state-of-the-art performance compared to task-specific methods across three downstream tasks under varying sensor configurations, yielding up to a 16.3% relative improvement in hyperspectral semantic segmentation $\mathrm{Acc}_{\mathrm{M}}$, a 2.1% relative gain in object tracking AUC, and a 35.5% reduction in salient object detection MAE. The source code and pre-trained model will be publicly available at https://github.com/lronkitty/HyperVision .
- Abstract(参考訳): ハイパースペクトルイメージングは、正確な物質同定のために数百の狭い波長帯にわたる豊富な空間スペクトル情報を提供するが、地上のハイパースペクトル事前訓練されたバックボーンは、センサー間の様々なスペクトル構成、ラベルの不足と一貫性、および既存のデータセットの限られたスケールとシーンの多様性によって制限されている。
これらの課題に対処し、普遍的な知覚を可能にするために、最初の地上ベースハイパースペクトル事前学習バックボーンであるHyperVisionを提案する。
まず、様々なスペクトル構成を扱うために、HyperVisionはチャネル適応動的埋め込み機構を採用し、不均一な入力を統一トークン空間にマッピングする。
第2に、ラベルの不足と矛盾に対処するため、SAM2によって生成された空間構造とHyperFreeによって抽出された微細なスペクトル情報の両方から意味表現を融合するマルチソース擬似ラベル方式を提案する。
第3に、限られたデータセットスケールとシーンの多様性を補うために、事前訓練されたRGBビジョンモデルから我々のハイパースペクトルバックボーンへリッチな意味表現を伝達するために、クロスモーダルな知識蒸留機構を利用する。
26の異なる地上ベースデータセットからの15kイメージの収集に基づいて事前トレーニングされたHyperVisionは、例外的な一般化を実証する。
バックボーンパラメータを調整せずに、効率的な頭部のみの適応しか必要とせず、センサー構成の異なる3つの下流タスクにおけるタスク固有のメソッドと比較して、最先端のパフォーマンスを実現し、ハイパースペクトルセマンティックセグメンテーションの16.3%の改善、オブジェクトトラッキングのAUCの2.1%の相対的な増加、および35.5%のサルトオブジェクト検出MAEが達成される。
ソースコードと事前トレーニングされたモデルはhttps://github.com/lronkitty/HyperVision で公開される。
関連論文リスト
- Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence [78.1406635199656]
Holi-Spatialは、人間の介入なしに生のビデオ入力から構築された、初めて完全に自動化され、大規模で、空間対応のマルチモーダルデータセットである。
Holi-Spatial-4Mは、12K最適化された3DGSシーン、1.3Mの2Dマスク、320Kの3Dバウンディングボックス、320Kのインスタンスキャプション、1.2Mの3Dグラウンドインスタンス、1.2Mの空間QAペアを含む、最初の大規模で高品質な3Dセマンティックデータセットである。
論文 参考訳(メタデータ) (2026-03-08T14:49:20Z) - SpecAware: A Spectral-Content Aware Foundation Model for Unifying Multi-Sensor Learning in Hyperspectral Remote Sensing Mapping [9.392313789126714]
SpecAwareは、HSIマッピングのためのマルチセンサー学習を統合するための新しいハイパースペクトルスペクトルコンテンツ認識基盤モデルである。
SpecAwareのコアは、HSIデータのための2ステップのハイパーネットワーク駆動エンコーディングプロセスである。
6つのデータセットの実験では、SpecAwareが優れた特徴表現を学習できることが示されている。
論文 参考訳(メタデータ) (2025-10-31T06:28:14Z) - Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models [18.24287471339871]
ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯にわたる密度のスペクトル測定とともに空間情報をキャプチャする。
本アーキテクチャでは、スペクトル変換器とスペクトル対応空間先行モジュールを組み込んで、豊富な空間スペクトル特徴を抽出する。
我々のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセマンティックセマンティックセマンティクス性能を実現し、ビジョンベースとハイパースペクトルセマンティクスの両方のセマンティクス法より優れている。
論文 参考訳(メタデータ) (2025-09-24T13:32:07Z) - Hyperspectral Mamba for Hyperspectral Object Tracking [56.365517163296936]
Mamba (HyMamba) を用いた新しいハイパースペクトル物体追跡ネットワークを提案する。
状態空間モジュール(SSM)によるスペクトル、クロスディープス、時間モデリングを統一する。
HyMambaは、7つのベンチマークデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-10T03:47:43Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - DiffFormer: a Differential Spatial-Spectral Transformer for Hyperspectral Image Classification [3.271106943956333]
超スペクトル画像分類(HSIC)は、高次元データをスペクトル情報と空間情報で分析する可能性から注目されている。
本稿では、スペクトル冗長性や空間不連続性といったHSICの固有の課題に対処するために、差分空間スペクトル変換器(DiffFormer)を提案する。
ベンチマークハイパースペクトルデータセットの実験は、分類精度、計算効率、一般化可能性の観点から、DiffFormerの優位性を示す。
論文 参考訳(メタデータ) (2024-12-23T07:21:41Z) - AMBER -- Advanced SegFormer for Multi-Band Image Segmentation: an application to Hyperspectral Imaging [0.0]
本稿では,マルチバンド画像セグメンテーション用に設計された高度なSegFormerであるAMBERを紹介する。
AMBERは3次元の畳み込み、カスタムカーネルサイズ、Funnelizerレイヤを組み込むことで、オリジナルのSegFormerを強化している。
PRISMA衛星の3つのベンチマークデータセットとデータセットを用いて行った実験により、AMBERは、全体的な精度、Kappa係数、平均精度で従来のCNNベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T09:34:05Z) - HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model [88.13261547704444]
Hyper SIGMAは、タスクやシーン間でHSI解釈を統合するビジョントランスフォーマーベースの基礎モデルである。
さらに,約450Kのハイパースペクトル画像を含む,事前学習のための大規模ハイパースペクトルデータセットHyperGlobal-450Kを構築した。
論文 参考訳(メタデータ) (2024-06-17T13:22:58Z) - Object Detection in Hyperspectral Image via Unified Spectral-Spatial
Feature Aggregation [55.9217962930169]
S2ADetは、高スペクトル画像に固有の豊富なスペクトル情報と空間補完情報を利用する物体検出器である。
S2ADetは既存の最先端メソッドを超え、堅牢で信頼性の高い結果を達成する。
論文 参考訳(メタデータ) (2023-06-14T09:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。