論文の概要: UNIGEOCLIP: Unified Geospatial Contrastive Learning
- arxiv url: http://arxiv.org/abs/2604.11668v1
- Date: Mon, 13 Apr 2026 16:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.675435
- Title: UNIGEOCLIP: Unified Geospatial Contrastive Learning
- Title(参考訳): UNIGEOCLIP:統合地理空間コントラスト学習
- Authors: Guillaume Astruc, Eduard Trulls, Jan Hosang, Loic Landrieu, Paul-Edouard Sarlin,
- Abstract要約: 地理的空間的データは、空中画像、ストリートレベルビュー、標高モデル、テキスト、地理的座標にまたがる。
UNIGEOCLIPは,5つの相補的な地理空間的モダリティを協調的に整合させる,非常に多モーダルなコントラストフレームワークである。
また,マルチスケールの地理的構造を捉えることで空間表現を改善するスケールド緯度エンコーダを提案する。
- 参考スコア(独自算出の注目度): 23.04186252685893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing availability of co-located geospatial data spanning aerial imagery, street-level views, elevation models, text, and geographic coordinates offers a unique opportunity for multimodal representation learning. We introduce UNIGEOCLIP, a massively multimodal contrastive framework to jointly align five complementary geospatial modalities in a single unified embedding space. Unlike prior approaches that fuse modalities or rely on a central pivot representation, our method performs all-to-all contrastive alignment, enabling seamless comparison, retrieval, and reasoning across arbitrary combinations of modalities. We further propose a scaled latitude-longitude encoder that improves spatial representation by capturing multi-scale geographic structure. Extensive experiments across downstream geospatial tasks demonstrate that UNIGEOCLIP consistently outperforms single-modality contrastive models and coordinate-only baselines, highlighting the benefits of holistic multimodal geospatial alignment. A reference implementation is available at https://gastruc.github.io/unigeoclip.
- Abstract(参考訳): 空中画像、ストリートレベルビュー、標高モデル、テキスト、地理的座標を含む、地理的に位置付けられたデータの利用が増加し、マルチモーダル表現学習のユニークな機会となる。
UNIGEOCLIPは、単一の統合埋め込み空間において、5つの相補的な空間的モダリティを協調的に整合させる、非常に多モーダルなコントラストフレームワークである。
モーダルを融合させたり、中央のピボット表現に依存する従来の手法とは異なり、本手法は全対一のコントラストアライメントを実行し、任意のモダリティの組み合わせに対してシームレスな比較、検索、推論を可能にする。
さらに,マルチスケールの地理的構造をキャプチャして空間表現を改善するスケールド緯度エンコーダを提案する。
UNIGEOCLIPは、下流の地理空間的タスクの広範な実験により、単一モードのコントラストモデルと座標のみのベースラインを一貫して上回り、総合的なマルチモーダルな地理空間的アライメントの利点を浮き彫りにしている。
リファレンス実装はhttps://gastruc.github.io/unigeoclip.comで公開されている。
関連論文リスト
- Spatially-Weighted CLIP for Street-View Geo-localization [5.8048364242505945]
本稿では,空間的自己相関を視覚言語によるコントラスト学習に明示的に組み込む,ストリートビューのジオローカライゼーションのための新しいフレームワークを提案する。
多都市データセットの実験により、SW-CLIPは地理的ローカライゼーションの精度を著しく向上し、長いテール誤差を低減し、標準のCLIPに比べて空間コヒーレンスを向上させることが示された。
論文 参考訳(メタデータ) (2026-04-06T02:10:36Z) - Global Cross-Modal Geo-Localization: A Million-Scale Dataset and a Physical Consistency Learning Framework [13.268717213871147]
クロスモーダルジオローカライゼーション(CMGL)は、地上レベルのテキスト記述とジオタグ付き空中画像とを一致させる。
グローバルCMGL専用の最初の100万規模のデータセットであるCOREを紹介する。
モーダルな地理的ローカライゼーションのための物理ロッド・アウェア・ネットワーク(PLANET)を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:27:19Z) - MMLANDMARKS: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding [4.493333639603517]
本稿では,高解像度空中画像197k,地上視画像329k,テキスト情報,地理的座標の4つの指標からなるマルチモーダルランドマークデータセット(MMLANDMARKS)を紹介する。
MMLANDMARKSデータセットは、すべてのモードにわたって1対1の対応を持ち、様々な地理空間的タスクのトレーニングとベンチマークモデルを可能にする。
論文 参考訳(メタデータ) (2025-12-19T12:03:05Z) - CLNet: Cross-View Correspondence Makes a Stronger Geo-Localizationer [48.52152634356309]
本稿では,異なるビュー間の意味的および幾何学的ギャップを明示的に橋渡しする,CLNetと呼ばれる通信対応機能改善フレームワークを提案する。
CLNetはビューアライメントプロセスを3つの学習可能な補完モジュールに分解する。
提案するCLNetは、より優れた解釈性と一般化性を提供しながら、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-16T16:31:41Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - Dynamic Contrastive Learning for Hierarchical Retrieval: A Case Study of Distance-Aware Cross-View Geo-Localization [20.868592923432843]
既存のディープラーニングを用いたクロスビュージオローカライズ手法は主に、クロスドメイン画像マッチングの精度向上に重点を置いている。
特徴表現を階層的空間的マージンに応じて段階的に整列させる新しいフレームワークである動的コントラスト学習(DyCL)を提案する。
論文 参考訳(メタデータ) (2025-06-29T03:57:01Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Multi-view Drone-based Geo-localization via Style and Spatial Alignment [47.95626612936813]
マルチビュー・マルチソース・ジオローカライゼーションは、ドローンビュー画像と衛星ビュー画像とを事前アノテーション付きGPSタグとマッチングすることにより、GPS位置決めの重要な補助的手法として機能する。
パターンを整列させるエレガントな配向に基づく手法を提案し、整列部分特徴を抽出する新しい分岐を導入する。
論文 参考訳(メタデータ) (2020-06-23T15:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。