論文の概要: HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation
- arxiv url: http://arxiv.org/abs/2601.23064v1
- Date: Fri, 30 Jan 2026 15:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.52143
- Title: HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation
- Title(参考訳): HierLoc: 階層的なビジュアルジオロケーションのためのハイパーボリックエンティティ埋め込み
- Authors: Hari Krishna Gadi, Daniel Matos, Hongyi Luo, Lu Liu, Yongliang Wang, Yanfeng Zhang, Liqiu Meng,
- Abstract要約: 画像と画像の検索を,ハイパーボリック空間に埋め込まれた地理的エンティティのコンパクトな階層構造に置き換える。
画像は、土地、地域、小地域、都市と直接的に一致し、地理的に重み付けられた双曲的学習を通して、対照的な目的にハーシン距離を直接組み込む。
文献の現在の方法と比較すると、平均測地誤差を19.5%削減し、細粒度のサブリージョン精度を43%改善している。
- 参考スコア(独自算出の注目度): 12.392226207474662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual geolocalization, the task of predicting where an image was taken, remains challenging due to global scale, visual ambiguity, and the inherently hierarchical structure of geography. Existing paradigms rely on either large-scale retrieval, which requires storing a large number of image embeddings, grid-based classifiers that ignore geographic continuity, or generative models that diffuse over space but struggle with fine detail. We introduce an entity-centric formulation of geolocation that replaces image-to-image retrieval with a compact hierarchy of geographic entities embedded in Hyperbolic space. Images are aligned directly to country, region, subregion, and city entities through Geo-Weighted Hyperbolic contrastive learning by directly incorporating haversine distance into the contrastive objective. This hierarchical design enables interpretable predictions and efficient inference with 240k entity embeddings instead of over 5 million image embeddings on the OSV5M benchmark, on which our method establishes a new state-of-the-art performance. Compared to the current methods in the literature, it reduces mean geodesic error by 19.5\%, while improving the fine-grained subregion accuracy by 43%. These results demonstrate that geometry-aware hierarchical embeddings provide a scalable and conceptually new alternative for global image geolocation.
- Abstract(参考訳): 画像の撮影場所を予測する視覚的地理的ローカライゼーション(英語版)は、グローバルスケール、視覚的あいまいさ、および本質的に階層的な地理的構造のために依然として困難である。
既存のパラダイムは、多数の画像埋め込みを格納する必要がある大規模な検索、地理的連続性を無視するグリッドベースの分類器、または空間に拡散するが詳細に苦しむ生成モデルのいずれかに依存している。
画像と画像の検索を,ハイパーボリック空間に埋め込まれた地理的エンティティのコンパクトな階層構造に置き換える。
画像は、土地、地域、小地域、都市と直接的に一致し、地理的に重み付けられた双曲的学習を通して、対照的な目的にハーシン距離を直接組み込む。
この階層設計により,OSV5Mベンチマークに500万以上の画像埋め込みではなく,240k以上のエンティティ埋め込みを用いた解釈可能な予測と効率的な推論が可能となる。
文献の現在の方法と比較すると、平均測地誤差を19.5 %削減し、細粒度のサブリージョン精度を43%改善している。
これらの結果は、幾何学的階層的な埋め込みが、グローバルな画像位置情報のスケーラブルで概念的に新しい代替手段を提供することを示している。
関連論文リスト
- Scaling Image Geo-Localization to Continent Level [48.7766435870634]
本稿では,大陸規模を拡大する大規模地形をまたいだ微粒な地理的局在化を実現するためのハイブリッドアプローチを提案する。
我々は、訓練中にプロキシ分類タスクを利用して、正確な位置情報を暗黙的にエンコードするリッチな特徴表現を学習する。
我々の評価は,ヨーロッパの大部分をカバーするデータセットのクエリの68%以上を200m以内でローカライズできることを示す。
論文 参考訳(メタデータ) (2025-10-30T17:59:35Z) - Towards Interpretable Geo-localization: a Concept-Aware Global Image-GPS Alignment Framework [9.31168320050859]
地理的ローカライゼーションは、全世界で撮影された画像の正確な地理的位置を決定することを含む。
現在の概念に基づく解釈可能性法は、ジオアライメント画像位置埋め込み目標と効果的に一致しない。
我々の知る限り、これは地理的局在化に解釈可能性を導入する最初の試みである。
論文 参考訳(メタデータ) (2025-09-02T03:07:26Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space [20.664043071378273]
LocDiffは、マルチスケールな位置符号化空間において遅延拡散を行う最初の画像ジオローカライズモデルである。
LocDiffは、5つの挑戦的なグローバルな画像ジオローカライゼーションデータセットにおいて、最先端のグリッドベース、検索ベース、拡散ベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-23T17:15:26Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。