論文の概要: GeoVLM: Improving Automated Vehicle Geolocalisation Using Vision-Language Matching
- arxiv url: http://arxiv.org/abs/2505.13669v1
- Date: Mon, 19 May 2025 19:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.495349
- Title: GeoVLM: Improving Automated Vehicle Geolocalisation Using Vision-Language Matching
- Title(参考訳): GeoVLM: ビジョンランゲージマッチングによる自動車両のジオローカライゼーションの改善
- Authors: Barkin Dagda, Muhammad Awais, Saber Fallah,
- Abstract要約: クロスビュージオローカライゼーションは、地上レベルの画像とジオタグ付き衛星画像とをデータベースからマッチングすることにより、車両の粗い地理的位置を特定する。
既存のアプローチは高いリコールレートに達するが、それでもトップマッチとして正しいイメージのランク付けに失敗している。
本稿では、視覚言語モデルのゼロショット機能を利用して、クロスビューなジオローカライゼーションを実現する新しいアプローチであるGeoVLMを提案する。
- 参考スコア(独自算出の注目度): 6.8045687415659275
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cross-view geo-localisation identifies coarse geographical position of an automated vehicle by matching a ground-level image to a geo-tagged satellite image from a database. Despite the advancements in Cross-view geo-localisation, significant challenges still persist such as similar looking scenes which makes it challenging to find the correct match as the top match. Existing approaches reach high recall rates but they still fail to rank the correct image as the top match. To address this challenge, this paper proposes GeoVLM, a novel approach which uses the zero-shot capabilities of vision language models to enable cross-view geo-localisation using interpretable cross-view language descriptions. GeoVLM is a trainable reranking approach which improves the best match accuracy of cross-view geo-localisation. GeoVLM is evaluated on standard benchmark VIGOR and University-1652 and also through real-life driving environments using Cross-View United Kingdom, a new benchmark dataset introduced in this paper. The results of the paper show that GeoVLM improves retrieval performance of cross-view geo-localisation compared to the state-of-the-art methods with the help of explainable natural language descriptions. The code is available at https://github.com/CAV-Research-Lab/GeoVLM
- Abstract(参考訳): クロスビュージオローカライゼーションは、地上レベルの画像とジオタグ付き衛星画像とをデータベースからマッチングすることにより、車両の粗い地理的位置を特定する。
クロスビューのジオローカライゼーションの進歩にもかかわらず、類似のシーンのような重要な課題が今も続いているため、トップマッチとして正しいマッチを見つけることは困難である。
既存のアプローチは高いリコールレートに達するが、それでもトップマッチとして正しいイメージのランク付けに失敗している。
この課題に対処するために,視覚言語モデルのゼロショット機能を利用して,解釈可能なクロスビュー言語記述を用いたクロスビューなジオローカライゼーションを実現する新しいアプローチであるGeoVLMを提案する。
GeoVLMは、クロスビューなジオローカライゼーションの最適マッチング精度を改善するトレーニング可能なリランクアプローチである。
GeoVLMは、標準ベンチマークVIGORとUniversity-1652に基づいて評価され、また、Cross-View United Kingdomを用いた実生活運転環境を通じて評価される。
本稿の結果から,GeoVLMは,説明可能な自然言語記述の助けを借りて,最先端の手法と比較して,クロスビューなジオローカライゼーションの検索性能の向上を図っている。
コードはhttps://github.com/CAV-Research-Lab/GeoVLMで公開されている。
関連論文リスト
- GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization [30.983556433953076]
画像ジオローカライズのための距離対応ランキングフレームワークGeoRankerを提案する。
絶対距離と相対距離の両方をランク付けする多階距離損失を導入し、構造的空間関係をモデル化する。
GeoRankerは、2つの確立されたベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-05-19T21:04:46Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - GAMa: Cross-view Video Geo-localization [68.33955764543465]
我々は、文脈的手がかりを提供する画像ではなく、地上ビデオに焦点を当てている。
クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。
提案手法は,トップ1リコール率19.4%,45.1%@1.0マイルを達成する。
論文 参考訳(メタデータ) (2022-07-06T04:25:51Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。