論文の概要: GeoSearch: Augmenting Worldwide Geolocalization with Web-Scale Reverse Image Search and Image Matching
- arxiv url: http://arxiv.org/abs/2604.25390v1
- Date: Tue, 28 Apr 2026 09:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.787571
- Title: GeoSearch: Augmenting Worldwide Geolocalization with Web-Scale Reverse Image Search and Image Matching
- Title(参考訳): GeoSearch:Webスケールのリバースイメージ検索と画像マッチングによる世界規模のジオローカライゼーション
- Authors: Tung-Duong Le-Duc, Hoang-Quoc Nguyen-Son, Minh-Son Dao,
- Abstract要約: 我々は,Webスケールのリバースイメージ検索をRAGパイプラインに統合する,オープンソースの位置情報フレームワークであるGeoSearchを提案する。
無関係なコンテンツからノイズを軽減するため,画像マッチングと信頼に基づくゲーティングを組み合わせた2層フィルタリング機構を導入する。
- 参考スコア(独自算出の注目度): 1.6460462104175428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Worldwide image geolocalization, which aims to predict the GPS coordinates of any image on Earth, remains challenging due to global visual diversity. Recent generative approaches based on Retrieval-Augmented Generation (RAG) and Large Multimodal Models (LMMs) leverage candidates retrieved from fixed databases for reasoning, but often struggle with scenes that are absent from the reference set. In this work, we propose GeoSearch, an open-world geolocation framework that integrates web-scale reverse image search into the RAG pipeline. GeoSearch augments LMM prompts with database-retrieved coordinates and textual evidence extracted from web pages. To mitigate noise from irrelevant content, we introduce a two-layer filtering mechanism consisting of image matching, followed by confidence-based gating. Experiments on standard benchmarks Im2GPS3k and YFCC4k demonstrate the superiority of GeoSearch under leakage-aware evaluation. Our code and data are publicly available to support reproducibility.
- Abstract(参考訳): 地球上の任意の画像のGPS座標を予測することを目的とした世界規模の画像ジオローカライゼーションは、グローバルな視覚的多様性のため、依然として困難である。
Retrieval-Augmented Generation (RAG) と Large Multimodal Models (LMM) に基づく最近の生成的アプローチは、固定データベースから取得した候補を推論するために活用するが、参照セットから欠落するシーンに苦慮することが多い。
本研究では,Webスケールのリバースイメージ検索をRAGパイプラインに統合したオープンソースのジオロケーションフレームワークであるGeoSearchを提案する。
GeoSearchはLMMプロンプトを、データベースが取得した座標とWebページから抽出したテキストによるエビデンスで強化する。
無関係なコンテンツからノイズを軽減するため,画像マッチングと信頼に基づくゲーティングを組み合わせた2層フィルタリング機構を導入する。
標準ベンチマークIm2GPS3kとYFCC4kの実験は、リーク認識評価におけるGeoSearchの優位性を実証している。
私たちのコードとデータは、再現性をサポートするために公開されています。
関連論文リスト
- Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning [72.13218601075958]
textbfWanderBenchは,具体的シナリオにおける行動可能な位置情報推論のための,最初のオープンアクセスグローバルジオロケーションベンチマークである。
我々は,下線Action of UnderlineThoughを用いた下線Geolocationフレームワークである textbfGeoAoT (Action of Thought) を提案する。
19個の大規模マルチモーダルモデルによる実験により、GeoAoTは動的環境におけるより優れた微細な局所化とより強力な一般化を実現することが示された。
論文 参考訳(メタデータ) (2026-03-11T06:24:10Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [23.297305067573316]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。