論文の概要: VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval
- arxiv url: http://arxiv.org/abs/2011.12172v2
- Date: Mon, 22 Mar 2021 04:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:26:58.807698
- Title: VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval
- Title(参考訳): vigor: 1対1検索以上のクロスビュー画像ジオローカライズ
- Authors: Sijie Zhu and Taojiannan Yang and Chen Chen
- Abstract要約: クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
- 参考スコア(独自算出の注目度): 19.239311087570318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view image geo-localization aims to determine the locations of
street-view query images by matching with GPS-tagged reference images from
aerial view. Recent works have achieved surprisingly high retrieval accuracy on
city-scale datasets. However, these results rely on the assumption that there
exists a reference image exactly centered at the location of any query image,
which is not applicable for practical scenarios. In this paper, we redefine
this problem with a more realistic assumption that the query image can be
arbitrary in the area of interest and the reference images are captured before
the queries emerge. This assumption breaks the one-to-one retrieval setting of
existing datasets as the queries and reference images are not perfectly aligned
pairs, and there may be multiple reference images covering one query location.
To bridge the gap between this realistic setting and existing datasets, we
propose a new large-scale benchmark -- VIGOR -- for cross-View Image
Geo-localization beyond One-to-one Retrieval. We benchmark existing
state-of-the-art methods and propose a novel end-to-end framework to localize
the query in a coarse-to-fine manner. Apart from the image-level retrieval
accuracy, we also evaluate the localization accuracy in terms of the actual
distance (meters) using the raw GPS data. Extensive experiments are conducted
under different application scenarios to validate the effectiveness of the
proposed method. The results indicate that cross-view geo-localization in this
realistic setting is still challenging, fostering new research in this
direction. Our dataset and code will be released at
\url{https://github.com/Jeff-Zilence/VIGOR}
- Abstract(参考訳): クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
しかし,これらの結果は,問合せ画像の位置に着目した参照画像が存在することを前提としており,実用シナリオには適用できない。
本稿では,問合せの領域において,問合せ画像が任意であり,問合せが現れる前に参照画像がキャプチャされるという,より現実的な仮定でこの問題を再定義する。
この仮定は、クエリと参照イメージが完全に一致していないため、既存のデータセットの1対1の検索設定を壊し、1つのクエリロケーションをカバーする複数の参照イメージが存在する可能性がある。
この現実的な設定と既存のデータセットのギャップを埋めるため、我々は1対1の検索を超えて、クロスビュー画像の地理的ローカライズを行うための新しい大規模ベンチマークであるvivoを提案する。
既存の最先端手法をベンチマークし,クエリを粗い方法でローカライズする新しいエンドツーエンドフレームワークを提案する。
画像レベルの検索精度は別として,生のGPSデータを用いて実際の距離(メーター)による位置推定精度も評価する。
提案手法の有効性を検証するため, 異なる応用シナリオ下で大規模な実験を行った。
その結果、この現実的な環境でのクロスビューのジオローカライズは依然として困難であり、この方向の新しい研究が進められている。
我々のデータセットとコードは \url{https://github.com/Jeff-Zilence/VIGOR} でリリースされる。
関連論文リスト
- GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Map-free Visual Relocalization: Metric Pose Relative to a Single Image [21.28513803531557]
本研究では,シーンの1枚の写真のみを用いて,地図のない再ローカライズを提案し,即時でスケールした再ローカライズを実現する。
既存のデータセットは、大きなシーンや限られた変数に焦点を当てているため、マップのない再ローカライゼーションのベンチマークには適していない。
我々は,世界規模で収集された彫刻,壁画,噴水など,655箇所の小さな関心事のデータセットを構築した。
論文 参考訳(メタデータ) (2022-10-11T14:49:49Z) - CVLNet: Cross-View Semantic Correspondence Learning for Video-based
Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。
本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。
実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文 参考訳(メタデータ) (2022-08-07T07:35:17Z) - GAMa: Cross-view Video Geo-localization [68.33955764543465]
我々は、文脈的手がかりを提供する画像ではなく、地上ビデオに焦点を当てている。
クリップレベルでは、短いビデオクリップと対応する空中画像が一致し、後に長いビデオの動画レベルのジオローカライズを得るために使用される。
提案手法は,トップ1リコール率19.4%,45.1%@1.0マイルを達成する。
論文 参考訳(メタデータ) (2022-07-06T04:25:51Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Deep Metric Learning for Ground Images [4.864819846886142]
我々は,現在のロボットの位置決めについて事前の知識がない初期位置決めタスクに対処する。
本稿では,クエリ画像に最もよく似た参照画像を取得するディープメトリック学習手法を提案する。
地上画像の既存の画像検索手法とは対照的に,提案手法はリコール性能が大幅に向上し,最先端のテクスチャベースローカライゼーション手法のローカライズ性能が向上する。
論文 参考訳(メタデータ) (2021-09-03T14:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。