論文の概要: SenCLIP: Enhancing zero-shot land-use mapping for Sentinel-2 with ground-level prompting
- arxiv url: http://arxiv.org/abs/2412.08536v1
- Date: Wed, 11 Dec 2024 16:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:09.366326
- Title: SenCLIP: Enhancing zero-shot land-use mapping for Sentinel-2 with ground-level prompting
- Title(参考訳): SenCLIP:地上プロンプトによるSentinel-2のゼロショット土地利用マッピングの強化
- Authors: Pallavi Jain, Dino Ienco, Roberto Interdonato, Tristan Berchoux, Diego Marcos,
- Abstract要約: SenCLIPは、ヨーロッパ各地のジオタグ付き地上画像と組み合わせた大量のSentinel-2画像のデータセットを利用して、CLIPをSentinel-2画像に転送する。
地上レベルの画像と衛星画像との整合性を示すアプローチでは,両方のプロンプトスタイルの分類精度が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 9.263651699452996
- License:
- Abstract: Pre-trained vision-language models (VLMs), such as CLIP, demonstrate impressive zero-shot classification capabilities with free-form prompts and even show some generalization in specialized domains. However, their performance on satellite imagery is limited due to the underrepresentation of such data in their training sets, which predominantly consist of ground-level images. Existing prompting techniques for satellite imagery are often restricted to generic phrases like a satellite image of ..., limiting their effectiveness for zero-shot land-use and land-cover (LULC) mapping. To address these challenges, we introduce SenCLIP, which transfers CLIPs representation to Sentinel-2 imagery by leveraging a large dataset of Sentinel-2 images paired with geotagged ground-level photos from across Europe. We evaluate SenCLIP alongside other SOTA remote sensing VLMs on zero-shot LULC mapping tasks using the EuroSAT and BigEarthNet datasets with both aerial and ground-level prompting styles. Our approach, which aligns ground-level representations with satellite imagery, demonstrates significant improvements in classification accuracy across both prompt styles, opening new possibilities for applying free-form textual descriptions in zero-shot LULC mapping.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、フリーフォームプロンプトによる印象的なゼロショット分類機能を示し、特殊ドメインでいくつかの一般化を示す。
しかし、衛星画像におけるそれらのパフォーマンスは、主に地上レベルの画像からなるトレーニングセットにおけるそのようなデータの不足のために制限されている。
既存の衛星画像のプロンプト技術はしばしば...の衛星画像のような一般的なフレーズに制限され、ゼロショットの土地利用と土地被覆(LULC)マッピングの有効性を制限している。
これらの課題に対処するために、ヨーロッパ各地のジオタグ付き地上画像と組み合わせたSentinel-2画像の大規模なデータセットを活用することにより、CLIPをSentinel-2画像に転送するSenCLIPを導入する。
我々は,EuroSAT と BigEarthNet のデータセットを用いたゼロショットLULCマッピングタスクにおいて,他の SOTA リモートセンシング VLM とともに SenCLIP を評価した。
地上レベルの表現と衛星画像との整合性を示すアプローチでは,両方のプロンプトスタイルの分類精度が大幅に向上し,ゼロショットLULCマッピングに自由形式のテキスト記述を適用する新たな可能性が高まった。
関連論文リスト
- Weakly-supervised Camera Localization by Ground-to-satellite Image Registration [52.54992898069471]
本稿では,地対衛星画像登録のための弱教師付き学習戦略を提案する。
地上画像ごとに正の衛星画像と負の衛星画像を導き出す。
また,クロスビュー画像の相対回転推定のための自己超越戦略を提案する。
論文 参考訳(メタデータ) (2024-09-10T12:57:16Z) - DF4LCZ: A SAM-Empowered Data Fusion Framework for Scene-Level Local Climate Zone Classification [2.088672652658465]
LCZ分類のための新しいDual-stream Fusionフレームワーク(DF4LCZ)を提案する。
このフレームワークには、Segment Anything Model (SAM) によって強化された Graph Convolutional Network (GCN) モジュールが含まれており、Googleイメージからの機能抽出を強化する。
提案するDF4LCZの有効性を検証するため,LCZ分類に特化して設計されたマルチソースリモートセンシング画像データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-03-14T13:15:46Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - Detecting Cloud Presence in Satellite Images Using the RGB-based CLIP
Vision-Language Model [0.0]
この研究は、雲によって影響を受ける衛星画像を特定するために、事前訓練されたCLIPビジョン言語モデルの能力を探求する。
このモデルを用いて雲の存在検知を行うためのいくつかの手法を提案し,評価した。
以上の結果から,CLIPモデルで学習した表現は,雲を含む衛星画像処理作業に有用であることが示唆された。
論文 参考訳(メタデータ) (2023-08-01T13:36:46Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。