論文の概要: MMLANDMARKS: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding
- arxiv url: http://arxiv.org/abs/2512.17492v1
- Date: Fri, 19 Dec 2025 12:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.369322
- Title: MMLANDMARKS: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding
- Title(参考訳): MMLANDMARKS:地理空間理解のためのクロスビューインスタンスレベルベンチマーク
- Authors: Oskar Kristoffersen, Alba R. Sánchez, Morten R. Hannemose, Anders B. Dahl, Dim P. Papadopoulos,
- Abstract要約: 本稿では,高解像度空中画像197k,地上視画像329k,テキスト情報,地理的座標の4つの指標からなるマルチモーダルランドマークデータセット(MMLANDMARKS)を紹介する。
MMLANDMARKSデータセットは、すべてのモードにわたって1対1の対応を持ち、様々な地理空間的タスクのトレーニングとベンチマークモデルを可能にする。
- 参考スコア(独自算出の注目度): 4.493333639603517
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Geo-spatial analysis of our world benefits from a multimodal approach, as every single geographic location can be described in numerous ways (images from various viewpoints, textual descriptions, and geographic coordinates). Current geo-spatial benchmarks have limited coverage across modalities, considerably restricting progress in the field, as current approaches cannot integrate all relevant modalities within a unified framework. We introduce the Multi-Modal Landmark dataset (MMLANDMARKS), a benchmark composed of four modalities: 197k highresolution aerial images, 329k ground-view images, textual information, and geographic coordinates for 18,557 distinct landmarks in the United States. The MMLANDMARKS dataset has a one-to-one correspondence across every modality, which enables training and benchmarking models for various geo-spatial tasks, including cross-view Ground-to-Satellite retrieval, ground and satellite geolocalization, Text-to-Image, and Text-to-GPS retrieval. We demonstrate broad generalization and competitive performance against off-the-shelf foundational models and specialized state-of-the-art models across different tasks by employing a simple CLIP-inspired baseline, illustrating the necessity for multimodal datasets to achieve broad geo-spatial understanding.
- Abstract(参考訳): 我々の世界の地理空間分析は、すべての地理的位置を様々な方法で記述できるため、マルチモーダルなアプローチの恩恵を受けている(様々な視点、テキスト記述、地理的座標)。
現在の地理空間ベンチマークは、統一されたフレームワーク内ですべての関連するモダリティを統合することができないため、フィールドの進捗を著しく制限する。
本稿では,高解像度空中画像197k,地上視画像329k,テキスト情報,地理的座標の4つの指標からなるマルチモーダルランドマークデータセット(MMLANDMARKS)を紹介する。
MMLANDMARKSデータセットは、すべてのモダリティに1対1の対応を持ち、地上から衛星までのクロスビュー検索、地上と衛星のジオローカライゼーション、テキスト・トゥ・イメージ、テキスト・トゥ・GPS検索など、様々な地理空間的タスクのためのトレーニングとベンチマークモデルを可能にする。
簡単なCLIPにインスパイアされたベースラインを応用し,多様な地理空間的理解を実現するためのマルチモーダルデータセットの必要性を考察することにより,既成の基盤モデルと専門の最先端モデルに対する広範な一般化と競争性能を示す。
関連論文リスト
- OBSR: Open Benchmark for Spatial Representations [0.3936827689390718]
本稿では地理空間埋め込み器の性能, 精度, 効率を評価するための新しいベンチマークを提案する。
我々のベンチマークは、モダリティに依存しないものであり、3大陸にまたがる多様な都市から7つの異なるデータセットで構成されている。
論文 参考訳(メタデータ) (2025-10-07T12:48:48Z) - GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings [3.43519422766841]
我々は、クエリ画像の視覚的表現と学習された地理的表現との整合性として、地理的ローカライゼーションを定式化する。
主要な実験では、5つのベンチマークデータセットで測定された25のメトリクスのうち22のベストが改善された。
論文 参考訳(メタデータ) (2025-10-01T20:39:48Z) - GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models [4.956977275061966]
GeoLocSFTは、地理的に多様なMR600kデータセットから慎重に選択されたイメージ-GPSペアでトレーニングされています。
この制限されたデータにもかかわらず、私たちのSFT中心のアプローチはベースラインモデルを大幅に改善します。
本研究は,惑星規模の画像測位における高品質の監督と効率的なSFTの能力を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-02T03:16:19Z) - GAIR: Improving Multimodal Geo-Foundation Model with Geo-Aligned Implicit Representations [5.439918212297177]
マルチモーダルなGeoFM開発における主要な課題は、モダリティ間の地理空間関係を明示的にモデル化することである。
オーバヘッドRSデータ,ストリートビュー画像,それらの位置情報メタデータを統合した,新しいマルチモーダルなGeoFMアーキテクチャであるGAIRを提案する。
GAIRは、RS画像ベース、SV画像ベース、位置埋め込みベースベンチマークにまたがる10の空間的タスクにまたがって評価される。
論文 参考訳(メタデータ) (2025-03-20T19:59:39Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - MGeo: Multi-Modal Geographic Pre-Training Method [49.78466122982627]
マルチモーダルジオグラフィック言語モデル(MGeo)を提案する。
MGeoはGCを新しいモダリティとして表現し、正確なクエリ-POIマッチングのためのマルチモーダル相関を完全に抽出することができる。
提案するマルチモーダル事前学習法は,汎用PTMのクエリ-POIマッチング能力を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T03:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。