論文の概要: Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery
- arxiv url: http://arxiv.org/abs/2602.22613v1
- Date: Thu, 26 Feb 2026 04:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.527975
- Title: Spectrally Distilled Representations Aligned with Instruction-Augmented LLMs for Satellite Imagery
- Title(参考訳): 衛星画像用インストラクション拡張LDMによる分光蒸留表現
- Authors: Minh Kha Do, Wei Xiang, Kang Han, Di Wu, Khoa Phan, Yi-Ping Phoebe Chen, Gaowen Liu, Ramana Rao Kompella,
- Abstract要約: 視覚言語基礎モデル(VLFM)は、地球観測におけるゼロショットと検索の理解を約束する。
本稿では、スペクトル対応VLFMであるSATtxtについて、推論時にのみRGB入力で動作させる。
EuroSAT、BigEarthNet、ForestNet全体で、SATtxtはゼロショット分類を平均4.2%改善し、検索は5.9%、線形探索は2.7%改善した。
- 参考スコア(独自算出の注目度): 37.61154732856327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language foundation models (VLFMs) promise zero-shot and retrieval understanding for Earth observation. While operational satellite systems often lack full multi-spectral coverage, making RGB-only inference highly desirable for scalable deployment, the adoption of VLFMs for satellite imagery remains hindered by two factors: (1) multi-spectral inputs are informative but difficult to exploit consistently due to band redundancy and misalignment; and (2) CLIP-style text encoders limit semantic expressiveness and weaken fine-grained alignment. We present SATtxt, a spectrum-aware VLFM that operates with RGB inputs only at inference while retaining spectral cues learned during training. Our framework comprises two stages. First, Spectral Representation Distillation transfers spectral priors from a frozen multi-spectral teacher to an RGB student via a lightweight projector. Second, Spectrally Grounded Alignment with Instruction-Augmented LLMs bridges the distilled visual space and an expressive LLM embedding space. Across EuroSAT, BigEarthNet, and ForestNet, SATtxt improves zero-shot classification on average by 4.2%, retrieval by 5.9%, and linear probing by 2.7% over baselines, showing an efficient path toward spectrum-aware vision-language learning for Earth observation. Project page: https://ikhado.github.io/sattxt/
- Abstract(参考訳): 視覚言語基礎モデル(VLFM)は、地球観測におけるゼロショットと検索の理解を約束する。
運用衛星システムは、完全なマルチスペクトルカバレッジを欠くことが多く、RGBのみの推論をスケーラブルな展開に極めて望ましいものにするが、衛星画像へのVLFMの導入は、(1)マルチスペクトル入力は有益であるが、バンドの冗長性と不整合性のために一貫して活用することが困難である、(2)CLIPスタイルのテキストエンコーダは意味表現性を制限し、きめ細かなアライメントを弱める、という2つの要因によって妨げられている。
SATtxtはスペクトルを意識したVLFMで、RGB入力を推論時にのみ動作させ、トレーニング中に学習したスペクトルの手がかりを保持する。
我々の枠組みは2つの段階から成る。
第一に、スペクトル表現蒸留(Spectral Representation Distillation)は、凍結したマルチスペクトルの教師から、軽量プロジェクタを介してRGBの学生にスペクトルを転送する。
第二に、分光接地アライメントとインストラクション強化LLMは蒸留された視覚空間と表現的なLLM埋め込み空間を橋渡しする。
EuroSAT、BigEarthNet、フォレストネット全体で、SATtxtは平均4.2%、検索5.9%、線形探索2.7%の改善を行い、地球観測のためのスペクトル対応の視覚言語学習への効率的な道筋を示している。
プロジェクトページ:https://ikhado.github.io/sattxt/
関連論文リスト
- Self-supervised and Multi-fidelity Learning for Extended Predictive Soil Spectroscopy [2.8830677829565894]
本稿では,潜在空間埋め込みに基づく多要素学習と拡張予測土壌分光のためのフレームワークを提案する。
自己教師付き表現は、大規模なMIRスペクトルライブラリとVari Autoencoderアルゴリズムで事前訓練された。
スペクトル変換(NIR から MIR への変換)タスクからの予測は、元の MIR スペクトルの性能と一致しなかったが、NIR のみのモデルの予測性能と似ているか、優れている。
論文 参考訳(メタデータ) (2025-11-20T01:36:33Z) - S2ML: Spatio-Spectral Mutual Learning for Depth Completion [56.26679539288063]
RGB-Dカメラで撮影した生深度画像は、弱い反射、境界影、アーティファクトによって不完全な深度値に悩まされることが多い。
既存の手法では、画像領域の深度補完によってこの問題に対処するが、それらは生の深度画像の物理的特性を見落としている。
本研究では,空間領域と周波数領域の両方の利点を両立させるため,S2ML(Spatio-Spectral Mutual Learning framework)を提案する。
論文 参考訳(メタデータ) (2025-11-08T15:01:55Z) - Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning [93.19037653970622]
本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
論文 参考訳(メタデータ) (2025-10-31T16:30:08Z) - Sky Background Building of Multi-objective Fiber spectra Based on Mutual Information Network [13.537469764303637]
空背景推定モデルを提案する: 相互情報(SMI)に基づく空背景構築
相互情報と漸進的学習アプローチに基づくSMI
その結果、SMIは観測中、特に青色の端において、より良い天体空背景を得ることができることがわかった。
論文 参考訳(メタデータ) (2025-08-27T13:36:12Z) - LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation [52.58791563814837]
大規模視覚言語データに基づいてトレーニングされた大規模な基礎モデルは、OVD(Open-Vocabulary Object Detection)を加速させる。
本稿では,Large Language Models (LLMs) のデコーダ層を利用して,視覚的グラウンド化を強化する手法を提案する。
中間的なLCM層は、既にリッチな空間意味論を符号化しており、初期層のみを適用すると、ほとんどの利得が得られる。
論文 参考訳(メタデータ) (2025-03-18T00:50:40Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - A generic self-supervised learning (SSL) framework for representation
learning from spectra-spatial feature of unlabeled remote sensing imagery [4.397725469518669]
自己教師付き学習(SSL)では、モデルが桁違いに遅延のないデータから表現を学習することができる。
この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
論文 参考訳(メタデータ) (2023-06-27T23:50:43Z) - L1BSR: Exploiting Detector Overlap for Self-Supervised Single-Image
Super-Resolution of Sentinel-2 L1B Imagery [14.233972890133769]
高解像度衛星画像は、多くの地球観測アプリケーションにとって重要な要素である。
信頼性の高い高解像度基底真理の欠如は、このタスクへのディープラーニング手法の適用を制限する。
L1BSRは,Sentinel-2 L1B 10m帯の単一像超解像およびバンドアライメントのための深層学習に基づく手法である。
論文 参考訳(メタデータ) (2023-04-14T00:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。