論文の概要: Text-to-Remote-Sensing-Image Retrieval beyond RGB Sources
- arxiv url: http://arxiv.org/abs/2507.10403v1
- Date: Mon, 14 Jul 2025 15:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.356659
- Title: Text-to-Remote-Sensing-Image Retrieval beyond RGB Sources
- Title(参考訳): テキスト・ツー・リモート・センシング画像検索はRGBの情報源を超えている
- Authors: Daniele Rege Cambrin, Lorenzo Vaiani, Giuseppe Gallipoli, Luca Cagliero, Paolo Garza,
- Abstract要約: 我々は647,000以上のSentinel-1 SARとSentinel-2マルチスペクトル画像からなる新しい大規模コーパスCrisisLandMarkを紹介する。
次に、テキストをブリッジとして使用する新しいフレームワークであるCLOSPを紹介し、未対光画像とSAR画像を統合埋め込み空間に整列させる。
実験の結果,CLOSPは新たな最先端技術を実現し,既存のモデルよりも54%向上した。
- 参考スコア(独自算出の注目度): 10.526517571430709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving relevant imagery from vast satellite archives is crucial for applications like disaster response and long-term climate monitoring. However, most text-to-image retrieval systems are limited to RGB data, failing to exploit the unique physical information captured by other sensors, such as the all-weather structural sensitivity of Synthetic Aperture Radar (SAR) or the spectral signatures in optical multispectral data. To bridge this gap, we introduce CrisisLandMark, a new large-scale corpus of over 647,000 Sentinel-1 SAR and Sentinel-2 multispectral images paired with structured textual annotations for land cover, land use, and crisis events harmonized from authoritative land cover systems (CORINE and Dynamic World) and crisis-specific sources. We then present CLOSP (Contrastive Language Optical SAR Pretraining), a novel framework that uses text as a bridge to align unpaired optical and SAR images into a unified embedding space. Our experiments show that CLOSP achieves a new state-of-the-art, improving retrieval nDGC by 54% over existing models. Additionally, we find that the unified training strategy overcomes the inherent difficulty of interpreting SAR imagery by transferring rich semantic knowledge from the optical domain with indirect interaction. Furthermore, GeoCLOSP, which integrates geographic coordinates into our framework, creates a powerful trade-off between generality and specificity: while the CLOSP excels at general semantic tasks, the GeoCLOSP becomes a specialized expert for retrieving location-dependent crisis events and rare geographic features. This work highlights that the integration of diverse sensor data and geographic context is essential for unlocking the full potential of remote sensing archives.
- Abstract(参考訳): 大規模な衛星アーカイブから関連する画像を取得することは、災害対応や長期気象モニタリングといった用途に不可欠である。
しかし、ほとんどのテキスト画像検索システムはRGBデータに限定されており、SAR(Synthetic Aperture Radar)の構造感度や光マルチスペクトルデータにおけるスペクトルシグネチャなど、他のセンサが捉えたユニークな物理情報を利用することができない。
このギャップを埋めるために、CrisisLandMarkは647,000以上のSentinel-1 SARとSentinel-2マルチスペクトル画像からなる新しい大規模コーパスである。
CLOSP(Contrastive Language Optical SAR Pretraining)は、テキストをブリッジとして使用する新しいフレームワークである。
実験の結果,CLOSPは新たな最先端技術を実現し,既存のモデルよりも54%向上した。
さらに,光学領域からリッチな意味知識を間接的相互作用で伝達することにより,SAR画像の解釈の難しさを克服する。
さらに、地理座標を我々のフレームワークに統合するGeoCLOSPは、一般性と特異性の間に強力なトレードオフを生み出し、CLOSPは一般的な意味的タスクにおいて優れているが、GeoCLOSPは位置依存の危機事象と稀な地理的特徴を検索する専門専門家となる。
この研究は、リモートセンシングアーカイブの可能性を最大限に活用するために、多様なセンサデータと地理的コンテキストの統合が不可欠であることを強調している。
関連論文リスト
- A Deep Learning framework for building damage assessment using VHR SAR and geospatial data: demonstration on the 2023 Turkiye Earthquake [1.6070833439280312]
災害直後の被害の特定は緊急対応・復旧の指導に不可欠である。
超高分解能(VHR)合成開口レーダ(SAR)画像を用いた建物損傷検出のための新しい多モードディープラーニング(DL)フレームワークを提案する。
SAR画像パッチ、OpenStreetMap(OSM)構築フットプリント、デジタル表面モデル(DSM)データ、グローバル地震モデル(GEM)の構造と露出特性を統合する。
その結果,地理空間的特徴を取り入れることで,これまで見られなかった領域に対する検出性能と一般化性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-06-27T15:49:58Z) - RaSCL: Radar to Satellite Crossview Localization [20.34909681483566]
オードメトリによる相対的なポーズとオードメトリによるグローバルなポーズを共同で最適化し,地上にRGB画像を用いた画像レーダを登録する方法を提案する。
本研究は,地上レーダと1つのジオレファレンス推定値を用いて,RGBオーバーヘッド画像から重要な特徴を抽出し,地上画像に対して効果的なグローバルローカライゼーションを行うための知見を提示する。
論文 参考訳(メタデータ) (2025-04-22T13:41:04Z) - GAIA: A Global, Multi-modal, Multi-scale Vision-Language Dataset for Remote Sensing Image Analysis [17.83602731408318]
本稿では,マルチスケール,マルチセンサ,マルチモーダルリモートセンシング(RS)画像解析のための新しいデータセットであるGAIAを紹介する。
GAIAは205,150個の厳密にキュレートされたRS画像テキストペアで構成され、異なる空間解像度に関連付けられたRSの多種多様さを表す。
GAIAは、RS画像分類、クロスモーダル検索、画像キャプションタスクの性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-13T18:52:14Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - FLOGA: A machine learning ready dataset, a benchmark and a novel deep
learning model for burnt area mapping with Sentinel-2 [41.28284355136163]
森林火災は人間や動物の生活、生態系、社会経済の安定に重大な脅威をもたらす。
本研究では、FLOGA(Forest wiLdfire Observations for the Greek Area)と名付けた機械学習可能なデータセットを作成し、導入する。
このデータセットは、山火事の前後に取得された衛星画像からなるため、ユニークなものである。
我々はFLOGAを用いて、複数の機械学習アルゴリズムとディープラーニングアルゴリズムの徹底的な比較を行い、バーント領域の自動抽出を行う。
論文 参考訳(メタデータ) (2023-11-06T18:42:05Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - A General Purpose Neural Architecture for Geospatial Systems [142.43454584836812]
本稿では,空間的帰納バイアスを持つ汎用ニューラルアーキテクチャ(GPNA)の構築に向けたロードマップを示す。
このようなモデルがコミュニティのメンバー間の協力をいかに促進するかを考察する。
論文 参考訳(メタデータ) (2022-11-04T09:58:57Z) - PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person
Search [56.02761592710612]
モジュール・パーソン・サーチのための新しいアテンション・アウェア・リレーション・ミキサー(ARM)を提案する。
私たちのARMモジュールはネイティブで、きめ細かい監督やトポロジカルな仮定に依存していません。
我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-07T10:04:12Z) - Dense Attention Fluid Network for Salient Object Detection in Optical
Remote Sensing Images [193.77450545067967]
光リモートセンシング画像(RSI)における有意物体検出のためのエンド・ツー・エンドDense Attention Fluid Network(DAFNet)を提案する。
GCA(Global Context-Aware Attention)モジュールは、長距離の意味的関係を適応的にキャプチャするために提案される。
我々は、2000枚の画像とピクセルワイドなサリエンシアノテーションを含むSODのための新しい、挑戦的な光学RSIデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-26T06:14:10Z) - DFPENet-geology: A Deep Learning Framework for High Precision
Recognition and Segmentation of Co-seismic Landslides [7.927831418004974]
本稿では,Dense-Decoder Network (DFPENet) を用いたロバストモデル Dense Feature Pyramid を開発した。
DFPENetモデルから抽出した画像特徴,地質学的特徴,時間分解能,地すべりの空間解析,移動学習を統合した共地震地すべり認識手法を提案する。
論文 参考訳(メタデータ) (2019-08-28T19:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。