論文の概要: GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings
- arxiv url: http://arxiv.org/abs/2510.01448v1
- Date: Wed, 01 Oct 2025 20:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.863334
- Title: GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings
- Title(参考訳): GeoSURGE:地理埋め込みの階層構造を用いた意味融合を用いた地球局在化
- Authors: Angel Daruna, Nicholas Meegan, Han-Pang Chiu, Supun Samarasekera, Rakesh Kumar,
- Abstract要約: 我々は、クエリ画像の視覚的表現と学習された地理的表現との整合性として、地理的ローカライゼーションを定式化する。
主要な実験では、5つのベンチマークデータセットで測定された25のメトリクスのうち22のベストが改善された。
- 参考スコア(独自算出の注目度): 3.43519422766841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Worldwide visual geo-localization seeks to determine the geographic location of an image anywhere on Earth using only its visual content. Learned representations of geography for visual geo-localization remain an active research topic despite much progress. We formulate geo-localization as aligning the visual representation of the query image with a learned geographic representation. Our novel geographic representation explicitly models the world as a hierarchy of geographic embeddings. Additionally, we introduce an approach to efficiently fuse the appearance features of the query image with its semantic segmentation map, forming a robust visual representation. Our main experiments demonstrate improved all-time bests in 22 out of 25 metrics measured across five benchmark datasets compared to prior state-of-the-art (SOTA) methods and recent Large Vision-Language Models (LVLMs). Additional ablation studies support the claim that these gains are primarily driven by the combination of geographic and visual representations.
- Abstract(参考訳): 世界規模の視覚的ジオローカライゼーションは、その視覚的コンテンツのみを使用して、地球上のどこでも画像の地理的な位置を決定することを目指している。
視覚的地理的局在のための地理の学習的表現は、多くの進歩にもかかわらず、活発な研究トピックとして残されている。
我々は、クエリ画像の視覚的表現と学習された地理的表現との整合性として、地理的ローカライゼーションを定式化する。
我々の新しい地理的表現は、地理的埋め込みの階層として世界を明示的にモデル化する。
さらに,クエリ画像の外観特徴をセマンティックセグメンテーションマップと効率的に融合し,堅牢な視覚表現を形成する手法を提案する。
従来のSOTA(State-of-the-art)手法や最近のLarge Vision-Language Models(LVLMs)と比較して,5つのベンチマークデータセットで測定された25項目中22項目のうち22項目において,最高値の改善を実証した。
追加のアブレーション研究は、これらの利得は主に地理的および視覚的表現の組み合わせによって引き起こされるという主張を支持している。
関連論文リスト
- Towards Interpretable Geo-localization: a Concept-Aware Global Image-GPS Alignment Framework [9.31168320050859]
地理的ローカライゼーションは、全世界で撮影された画像の正確な地理的位置を決定することを含む。
現在の概念に基づく解釈可能性法は、ジオアライメント画像位置埋め込み目標と効果的に一致しない。
我々の知る限り、これは地理的局在化に解釈可能性を導入する最初の試みである。
論文 参考訳(メタデータ) (2025-09-02T03:07:26Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z) - Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。
本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。
本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文 参考訳(メタデータ) (2021-12-30T20:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。