論文の概要: SpectraDINO: Bridging the Spectral Gap in Vision Foundation Models via Lightweight Adapters
- arxiv url: http://arxiv.org/abs/2605.02258v1
- Date: Mon, 04 May 2026 06:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.157003
- Title: SpectraDINO: Bridging the Spectral Gap in Vision Foundation Models via Lightweight Adapters
- Title(参考訳): SpectraDINO:軽量アダプタによるビジョンファウンデーションモデルにおけるスペクトルギャップのブリッジ
- Authors: Yagiz Nalcakan, Hyeongjin Ju, Incheol Park, Sanghyeop Yeo, Youngwan Jin, Shiho Kim,
- Abstract要約: 大規模RGBデータに事前訓練されたビジョンファウンデーションモデル(VFM)は、顕著な表現品質を示している。
近赤外(NIR)、短波赤外(SWIR)、長波赤外(LWIR)にまたがるマルチスペクトルイメージングへの適用性は、いまだに未調査である。
我々は、DINOv2 ViTバックボーンを超可視モードに拡張することで、このスペクトルギャップを橋渡しするマルチスペクトルVFMであるSpectraDINOを提案する。
- 参考スコア(独自算出の注目度): 1.2622634782102324
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Foundation Models (VFMs) pretrained on large-scale RGB data have demonstrated remarkable representation quality, yet their applicability to multispectral imaging spanning Near-Infrared (NIR), Short-Wave Infrared (SWIR), and Long-Wave Infrared (LWIR) remains largely unexplored. These spectral modalities offer complementary sensing capabilities critical for robust perception in adverse conditions, but present a fundamental domain gap relative to RGB-centric pretrained models. We present SpectraDINO, a multispectral VFM that bridges this spectral gap by extending DINOv2 ViT backbones to beyond-visible modalities through lightweight, per-modality bottleneck adapters, while preserving the rich representations of the frozen RGB backbone. We introduce a multi-stage teacher-student training protocol in which a frozen DINOv2 teacher guides a spectral student via cosine distillation, symmetric contrastive loss, patch-level alignment, and a novel neighborhood-structure-preservation loss. This staged curriculum enables strong cross-modal alignment without catastrophic forgetting of RGB priors. We evaluate SpectraDINO on multispectral object detection and semantic segmentation across challenging NIR, SWIR, and LWIR benchmarks using widely adopted fusion strategies. SpectraDINO achieves state-of-the-art performance across most benchmarks, validating its effectiveness as a general-purpose backbone for spectral generalization. The code and weights for model variants are available at https://github.com/Yonsei-STL/SpectraDINO.
- Abstract(参考訳): 大規模RGBデータで事前訓練された視覚基礎モデル(VFM)は、顕著な表現品質を示しているが、近赤外(NIR)、短波赤外(SWIR)、長波赤外(LWIR)にまたがるマルチスペクトル画像に適用可能であることは、ほとんど未発見のままである。
これらのスペクトルモダリティは、有害な条件における堅牢な認識に不可欠な相補的知覚能力を提供するが、RGB中心の事前訓練モデルに対する基本的な領域ギャップを示す。
凍結したRGBバックボーンのリッチな表現を保ちながら、DINOv2 ViTバックボーンを軽量かつモダリティごとのボトルネックアダプタを通じて、可視なモダリティに拡張することで、このスペクトルギャップを橋渡しするマルチスペクトルVFMであるSpectraDINOを提案する。
凍結したDINOv2教師が、コサイン蒸留、対称的コントラスト損失、パッチレベルのアライメント、新しい近傍構造保存損失を通じてスペクトル学生を指導する多段階教師学生訓練プロトコルを導入する。
この段階的なカリキュラムは、RGB以前の破滅的な忘れをせずに、強力な相互モーダルアライメントを可能にする。
NIR,SWIR,LWIRベンチマークにおけるマルチスペクトルオブジェクトの検出とセマンティックセグメンテーションについて広く採用されている融合戦略を用いてSpectraDINOの評価を行った。
SpectraDINOは、ほとんどのベンチマークで最先端のパフォーマンスを実現し、スペクトル一般化の汎用バックボーンとしての有効性を検証する。
モデル変種に関するコードと重み付けはhttps://github.com/Yonsei-STL/SpectraDINOで公開されている。
関連論文リスト
- Local Precise Refinement: A Dual-Gated Mixture-of-Experts for Enhancing Foundation Model Generalization against Spectral Shifts [26.40090723572808]
スペクトルリモートセンシングにおけるドメイン一般化セマンティック(DGSS)は、様々な取得条件のスペクトルシフトによって深刻な課題となる。
本稿では,DGSSのための新しいPEFTフレームワークであるSpectralMoEを提案する。
論文 参考訳(メタデータ) (2026-03-08T04:53:05Z) - Spectral-Aware Global Fusion for RGB-Thermal Semantic Segmentation [10.761216101789774]
マルチモーダル機能の強化と融合を図るため,SGFNet(Spectral-aware Global Fusion Network)を提案する。
SGFNetは、MFNetとPST900データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2025-05-21T13:17:57Z) - CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [69.02751635551724]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。
スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。
本稿では,RGB,マルチスペクトル,ハイパースペクトル画像を用いたカメラ非依存表現学習モデルCARLを紹介する。
論文 参考訳(メタデータ) (2025-04-27T13:06:40Z) - Contourlet Refinement Gate Framework for Thermal Spectrum Distribution Regularized Infrared Image Super-Resolution [54.293362972473595]
画像超解像(SR)は、高解像度(HR)画像を低解像度(LR)画像から再構成することを目的としている。
SRタスクに対処する現在のアプローチは、RGB画像の特徴を抽出するか、同様の劣化パターンを仮定するものである。
スペクトル分布の忠実さを保ちつつ、赤外線変調特性を復元するコントゥーレット改質ゲートフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:24:03Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - There and Back Again: Self-supervised Multispectral Correspondence
Estimation [13.56924750612194]
自己監督が可能な新しいサイクル一貫性指標を紹介します。
これにより、スペクトルに依存しない損失関数と組み合わせることで、同じネットワークを複数のスペクトルにわたってトレーニングできます。
本研究では,高密度RGB-FIR対応推定の課題に対するアプローチを示す。
論文 参考訳(メタデータ) (2021-03-19T12:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。