論文の概要: SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2508.05202v1
- Date: Thu, 07 Aug 2025 09:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.675613
- Title: SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images
- Title(参考訳): SPEX:分光リモートセンシング画像を用いた土地被覆抽出のための視覚言語モデル
- Authors: Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang,
- Abstract要約: スペクトルリモートセンシング画像における土地被覆抽出のための視覚言語モデルであるSPEXを提案する。
SPEXは、典型的な土地被覆カテゴリーを抽出する既存の最先端手法を一貫して上回っている。
SPEXは、その予測のためのテキスト説明を生成することができ、解釈可能性とユーザフレンドリ性を高めることができる。
- 参考スコア(独自算出の注目度): 37.72862007528948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectral information has long been recognized as a critical cue in remote sensing observations. Although numerous vision-language models have been developed for pixel-level interpretation, spectral information remains underutilized, resulting in suboptimal performance, particularly in multispectral scenarios. To address this limitation, we construct a vision-language instruction-following dataset named SPIE, which encodes spectral priors of land-cover objects into textual attributes recognizable by large language models (LLMs), based on classical spectral index computations. Leveraging this dataset, we propose SPEX, a multimodal LLM designed for instruction-driven land cover extraction. To this end, we introduce several carefully designed components and training strategies, including multiscale feature aggregation, token context condensation, and multispectral visual pre-training, to achieve precise and flexible pixel-level interpretation. To the best of our knowledge, SPEX is the first multimodal vision-language model dedicated to land cover extraction in spectral remote sensing imagery. Extensive experiments on five public multispectral datasets demonstrate that SPEX consistently outperforms existing state-of-the-art methods in extracting typical land cover categories such as vegetation, buildings, and water bodies. Moreover, SPEX is capable of generating textual explanations for its predictions, thereby enhancing interpretability and user-friendliness. Code will be released at: https://github.com/MiliLab/SPEX.
- Abstract(参考訳): 分光情報は、リモートセンシング観測における重要な手がかりとして長年認識されてきた。
画素レベルの解釈のために多くの視覚言語モデルが開発されているが、スペクトル情報は未利用のままであり、特にマルチスペクトルシナリオにおいて、準最適性能をもたらす。
この制限に対処するため、従来のスペクトル指数計算に基づいて、ランドカバーオブジェクトのスペクトル先行を大言語モデル(LLM)で認識可能なテキスト属性に符号化するSPIEという視覚言語命令追従データセットを構築した。
このデータセットを活用することで,命令駆動型土地被覆抽出のためのマルチモーダルLLMであるSPEXを提案する。
この目的のために,マルチスケールな特徴集約,トークンコンテキストの凝縮,マルチスペクトル視覚事前学習など,慎重に設計されたコンポーネントやトレーニング戦略を導入し,高精度で柔軟な画素レベルの解釈を実現する。
我々の知る限り、SPEXは、スペクトルリモートセンシング画像における土地被覆抽出に特化した最初のマルチモーダル視覚言語モデルである。
5つの公共マルチスペクトルデータセットに対する大規模な実験により、SPEXは、植生、建物、水域などの典型的な土地被覆カテゴリーを抽出する既存の最先端手法を一貫して上回っていることが示された。
さらに、SPEXは、その予測のためのテキスト説明を生成することができ、解釈可能性やユーザフレンドリ性を高めることができる。
コードは、https://github.com/MiliLab/SPEX.comでリリースされる。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - SpecCLIP: Aligning and Translating Spectroscopic Measurements for Stars [1.4217538206528657]
我々は、LLMにインスパイアされた方法論を恒星スペクトル分析に拡張する基盤モデルフレームワークであるSpecCLIPを提案する。
大規模データセットの基盤モデルをトレーニングすることで、さまざまな下流アプリケーションをサポートする堅牢で情報に富んだ埋め込みを学ぶことが私たちのゴールです。
これらのモデルを中規模ラベル付きデータセットに微調整することで、恒星パラメータ推定や化学特性決定といったタスクへの適応性が向上することを示した。
論文 参考訳(メタデータ) (2025-07-02T17:49:52Z) - Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation [3.4719449211802456]
Llama3-MS-CLIPは、大規模なマルチスペクトルデータセット上で、コントラスト学習で事前訓練された最初の視覚言語モデルである。
我々は,100万個のSentinel-2サンプルからなるマルチスペクトルデータに対して,これまでで最大の画像キャプチャーデータセットを提案する。
Llama3-MS-CLIPを多スペクトルゼロショット画像分類と3つの複雑さのデータセットを用いた検索で評価した。
論文 参考訳(メタデータ) (2025-03-20T09:13:31Z) - VLForgery Face Triad: Detection, Localization and Attribution via Multimodal Large Language Models [14.053424085561296]
高品質で制御可能な属性を持つ顔モデルは、ディープフェイク検出に重大な課題をもたらす。
本研究では,Multimodal Large Language Models (MLLM) をDMベースの顔鑑定システムに統合する。
VLForgery と呼ばれる細粒度解析フレームワークを提案する。このフレームワークは,1) ファルシファイド顔画像の予測,2) 部分合成対象のファルシファイド顔領域の特定,3) 特定のジェネレータによる合成の属性付けを行う。
論文 参考訳(メタデータ) (2025-03-08T09:55:19Z) - A Vision-Language Framework for Multispectral Scene Representation Using Language-Grounded Features [15.700048595212051]
本稿では、マルチスペクトルデータと視覚言語アライメント技術を統合し、シーンの表現と記述を向上させる、Spectral LLaVAというビジョン言語フレームワークを提案する。
我々の結果は、特にRGBデータだけでは不十分なシナリオにおいて、Spectral LLaVAが詳細で正確な記述を生成する能力を強調した。
論文 参考訳(メタデータ) (2025-01-17T12:12:33Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。
周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。
多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。