論文の概要: VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing
- arxiv url: http://arxiv.org/abs/2512.11490v1
- Date: Fri, 12 Dec 2025 11:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.751517
- Title: VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing
- Title(参考訳): VLM2GeoVec:リモートセンシングのためのユニバーサルマルチモーダル埋め込みを目指して
- Authors: Emanuel Sánchez Aimar, Gulnaz Zhambulova, Fahad Shahbaz Khan, Yonghao Xu, Michael Felsberg,
- Abstract要約: シングルエンコーダの視覚言語モデルは、統合ベクトル空間にインターリーブされた入力を埋め込むために対照的に訓練された。
VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
- 参考スコア(独自算出の注目度): 59.73939718087177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Satellite imagery differs fundamentally from natural images: its aerial viewpoint, very high resolution, diverse scale variations, and abundance of small objects demand both region-level spatial reasoning and holistic scene understanding. Current remote-sensing approaches remain fragmented between dual-encoder retrieval models, which excel at large-scale cross-modal search but cannot interleave modalities, and generative assistants, which support region-level interpretation but lack scalable retrieval capabilities. We propose $\textbf{VLM2GeoVec}$, an instruction-following, single-encoder vision-language model trained contrastively to embed interleaved inputs (images, text, bounding boxes, and geographic coordinates) in a unified vector space. Our single encoder interleaves all inputs into one joint embedding trained with a contrastive loss, eliminating multi-stage pipelines and task-specific modules. To evaluate its versatility, we introduce $\textbf{RSMEB}$, a novel benchmark covering key remote-sensing embedding applications: scene classification; cross-modal search; compositional retrieval; visual-question answering; visual grounding and region-level reasoning; and semantic geospatial retrieval. On RSMEB, it achieves $\textbf{26.6%}$ P@1 on region-caption retrieval (+25 pp vs. dual-encoder baselines), $\textbf{32.5%}$ P@1 on referring-expression retrieval (+19 pp), and $\textbf{17.8%}$ P@1 on semantic geo-localization retrieval (over $3\times$ prior best), while matching or exceeding specialized baselines on conventional tasks such as scene classification and cross-modal retrieval. VLM2GeoVec unifies scalable retrieval with region-level spatial reasoning, enabling cohesive multimodal analysis in remote sensing. We will publicly release the code, checkpoints, and data upon acceptance.
- Abstract(参考訳): 衛星画像は、その空中視点、非常に高解像度、多様なスケールのバリエーション、および小さな物体の豊富さは、地域レベルの空間的推論と全体像の理解の両方を要求する。
現在のリモートセンシング手法は、大規模なクロスモーダル検索で優れているがインターリーブできないデュアルエンコーダ検索モデルと、地域レベルの解釈をサポートするがスケーラブルな検索機能を持たない生成アシスタントとの間に断片化されている。
命令追従型単一エンコーダ視覚言語モデルである$\textbf{VLM2GeoVec}$を提案する。
我々のシングルエンコーダは、マルチステージパイプラインとタスク固有のモジュールを排除し、対照的な損失で訓練された1つのジョイント埋め込みに全ての入力をインターリーブする。
その汎用性を評価するために, シーン分類, クロスモーダル検索, 構成検索, 視覚探索応答, 視覚接地, 地域レベルの推論, セマンティック地理空間検索といった, リモートセンシングの重要アプリケーションを対象とした新しいベンチマークである$\textbf{RSMEB}$を紹介した。
RSMEBでは、領域キャプション検索で$\textbf{26.6%}$ P@1(+25 pp vs. dual-encoder baselines)、$\textbf{32.5%}$ P@1(+19 pp)、$\textbf{17.8%}$ P@1($3\times$ pre best)のセマンティックジオローカライゼーション検索で$P@1を達成する。
VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
受け入れ次第、コード、チェックポイント、データを公開します。
関連論文リスト
- A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization [49.13032757301023]
我々はRoboSense 2025 Track 4: Cross-Modal Drone Navigationに勝利のソリューションを提示する。
タスクは、大規模なマルチプラットフォームコーパスから最も関連性の高いジオレファレンス画像を取得する。
我々は、差別力を高めるために、プログレッシブな2段階の強硬なマイニング戦略を用いて、3つのプラットフォーム専門家を訓練する。
論文 参考訳(メタデータ) (2025-10-23T07:23:47Z) - OSDA: A Framework for Open-Set Discovery and Automatic Interpretation of Land-cover in Remote Sensing Imagery [10.196580289786414]
リモートセンシングにおけるオープン・セットの土地被覆分析は、きめ細かい空間的局所化とセマンティック・オープンな分類を実現する能力を必要とする。
我々は,アノテーションのないオープンセット土地被覆発見,セグメンテーション,記述のための3段階統合フレームワークOSDAを紹介する。
我々の研究は、動的土地被覆モニタリングのためのスケーラブルで解釈可能なソリューションを提供し、自動地図更新と大規模地球観測分析の強力な可能性を示している。
論文 参考訳(メタデータ) (2025-09-23T06:23:56Z) - Robust Cross-View Geo-Localization via Content-Viewpoint Disentanglement [21.192114177279695]
クロスビュージオローカライゼーション(CVGL)は、ドローンや衛星など、さまざまな視点から捉えた同じ地理的位置の画像をマッチングすることを目的としている。
CVGLは、視線の変化による顕著な外観変化と空間歪みのため、非常に困難である。
我々は、$textitcontent$と$textitviewpoint$ Factorを明示的に分離する新しいCVGLフレームワークである$textbfCVD$を提案する。
論文 参考訳(メタデータ) (2025-05-17T04:10:32Z) - Transferring to Real-World Layouts: A Depth-aware Framework for Scene Adaptation [34.786268652516355]
教師なしドメイン適応(UDA)によるシーンセグメンテーションは、ソース合成データから取得した知識を現実のターゲットデータに転送することを可能にする。
深度推定を明示的に活用してカテゴリを混合し,2つの補完的タスク,すなわちセグメンテーションと深度学習を促進するための奥行き認識フレームワークを提案する。
特に、このフレームワークには、DCF(Depth-guided Contextual Filter)フォーンデータ拡張と、コンテキスト学習のためのクロスタスクエンコーダが含まれている。
論文 参考訳(メタデータ) (2023-11-21T15:39:21Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation [96.29533512606078]
本稿では,新しいニューラルアーキテクチャサーチ(NAS)フレームワークであるAutoPoseを紹介する。
高精度で高解像度な2次元ポーズ推定に向けて、クロススケール接続の複数の並列ブランチを自動的に検出することができる。
論文 参考訳(メタデータ) (2020-08-16T22:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。