論文の概要: GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
- arxiv url: http://arxiv.org/abs/2505.13731v1
- Date: Mon, 19 May 2025 21:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.541158
- Title: GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
- Title(参考訳): GeoRanker:世界規模の画像ジオローカライゼーションのための距離対応ランキング
- Authors: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li,
- Abstract要約: 画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 30.983556433953076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Worldwide image geolocalization-the task of predicting GPS coordinates from images taken anywhere on Earth-poses a fundamental challenge due to the vast diversity in visual content across regions. While recent approaches adopt a two-stage pipeline of retrieving candidates and selecting the best match, they typically rely on simplistic similarity heuristics and point-wise supervision, failing to model spatial relationships among candidates. In this paper, we propose GeoRanker, a distance-aware ranking framework that leverages large vision-language models to jointly encode query-candidate interactions and predict geographic proximity. In addition, we introduce a multi-order distance loss that ranks both absolute and relative distances, enabling the model to reason over structured spatial relationships. To support this, we curate GeoRanking, the first dataset explicitly designed for geographic ranking tasks with multimodal candidate information. GeoRanker achieves state-of-the-art results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly outperforming current best methods.
- Abstract(参考訳): 地球上の任意の場所で撮影された画像からGPS座標を推定するタスクは、地域によって視覚的内容が多様であるため、根本的な課題となっている。
最近のアプローチでは、候補を検索し、ベストマッチを選択するための2段階のパイプラインが採用されているが、それらは通常、単純な類似性ヒューリスティックとポイントワイドの監督に依存しており、候補間の空間的関係をモデル化することができない。
本稿では,大規模視覚言語モデルを用いてクエリ・候補間相互作用を符号化し,地理的近接を推定する距離対応ランキングフレームワークGeoRankerを提案する。
さらに、絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
これをサポートするために、ジオランキング(GeoRanking)は、地理的ランキングタスクをマルチモーダルな候補情報で明示的に設計した最初のデータセットである。
GeoRankerは、確立された2つのベンチマーク(IM2GPS3KとYFCC4K)で最先端の結果を達成する。
関連論文リスト
- Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。