論文の概要: Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation
- arxiv url: http://arxiv.org/abs/2503.15969v1
- Date: Thu, 20 Mar 2025 09:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:37.727331
- Title: Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation
- Title(参考訳): 可視性を超えて:地球観測のためのマルチスペクトルビジョンランゲージ学習
- Authors: Clive Tinashe Marimo, Benedikt Blumenstiel, Maximilian Nitsche, Johannes Jakubik, Thomas Brunschwiler,
- Abstract要約: Llama3-MS-CLIPは、大規模なマルチスペクトルデータセット上で、コントラスト学習で事前訓練された最初の視覚言語モデルである。
我々は,100万個のSentinel-2サンプルからなるマルチスペクトルデータに対して,これまでで最大の画像キャプチャーデータセットを提案する。
Llama3-MS-CLIPを多スペクトルゼロショット画像分類と3つの複雑さのデータセットを用いた検索で評価した。
- 参考スコア(独自算出の注目度): 3.4719449211802456
- License:
- Abstract: Vision-language models for Earth observation (EO) typically rely on the visual spectrum of data as the only model input, thus failing to leverage the rich spectral information available in the multispectral channels recorded by satellites. Therefore, in this paper, we introduce Llama3-MS-CLIP, the first vision-language model pre-trained with contrastive learning on a large-scale multispectral dataset and report on the performance gains due to the extended spectral range. Furthermore, we present the largest-to-date image-caption dataset for multispectral data, consisting of one million Sentinel-2 samples and corresponding textual descriptions generated with Llama3-LLaVA-Next and Overture Maps data. We develop a scalable captioning pipeline, which is validated by domain experts. We evaluate Llama3-MS-CLIP on multispectral zero-shot image classification and retrieval using three datasets of varying complexity. Our results demonstrate that Llama3-MS-CLIP significantly outperforms other RGB-based approaches, improving classification accuracy by 6.77% on average and retrieval performance by 4.63% mAP compared to the second-best model. Our results emphasize the relevance of multispectral vision-language learning. We release the image-caption dataset, code, and model weights under an open-source license.
- Abstract(参考訳): 地球観測のための視覚言語モデル(EO)は通常、唯一のモデル入力としてデータの視覚スペクトルに依存しており、衛星が記録するマルチスペクトルチャネルで利用可能な豊富なスペクトル情報を利用できない。
そこで本稿では,Llama3-MS-CLIPについて紹介する。Llama3-MS-CLIPは,大規模マルチスペクトルデータセットにおけるコントラスト学習を事前訓練した最初の視覚言語モデルであり,スペクトル範囲の拡大による性能向上について報告する。
さらに,100万個のSentinel-2サンプルとLlama3-LLaVA-NextおよびOverture Mapsデータを用いて生成されたテキスト記述からなる,マルチスペクトルデータのための最大かつ最新の画像キャプチャデータセットを提案する。
ドメインの専門家によって検証されたスケーラブルなキャプションパイプラインを開発した。
Llama3-MS-CLIPを多スペクトルゼロショット画像分類と3つの複雑さのデータセットを用いた検索で評価した。
以上の結果から,Llama3-MS-CLIPは他のRGBベースに比べて有意に優れており,分類精度は平均6.77%,検索性能は4.63%向上した。
その結果,多スペクトル視覚言語学習の関連性を強調した。
オープンソースライセンスの下で、画像キャプチャデータセット、コード、モデルウェイトをリリースします。
関連論文リスト
- SpectralEarth: Training Hyperspectral Foundation Models at Scale [47.93167977587301]
ハイパースペクトル基礎モデルの事前学習を目的とした大規模マルチ時間データセットであるSpectralEarthを紹介する。
我々は、最先端の自己教師付き学習(SSL)アルゴリズムを用いて、SpectralEarthの一連の基礎モデルを事前訓練する。
我々は、土地被覆と収穫型マッピングのための4つの下流データセットを構築し、モデル評価のためのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-08-15T22:55:59Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification [42.15709954199397]
本稿では,変圧器を用いたヘテロジニアサリエントグラフ表現法(THSGR)を提案する。
まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。
自己アテンションフリーなマルチ畳み込み変調器は、効果的かつ効率的な長期依存性モデリングのために設計されている。
論文 参考訳(メタデータ) (2023-11-17T04:06:20Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - ViLLA: Fine-Grained Vision-Language Representation Learning from
Real-World Data [8.905439446173503]
視覚言語モデル(VLM)は一般的に、Webから取得した画像キャプチャペアからなるデータセットに基づいて訓練される。
医療データなどの実世界のマルチモーダルデータセットは、はるかに複雑です。
ViLLAは、複雑なデータセットからきめ細かい領域属性関係をキャプチャするために訓練されている。
論文 参考訳(メタデータ) (2023-08-22T05:03:09Z) - A generic self-supervised learning (SSL) framework for representation
learning from spectra-spatial feature of unlabeled remote sensing imagery [4.397725469518669]
自己教師付き学習(SSL)では、モデルが桁違いに遅延のないデータから表現を学習することができる。
この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
論文 参考訳(メタデータ) (2023-06-27T23:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。