論文の概要: Statewide Visual Geolocalization in the Wild
- arxiv url: http://arxiv.org/abs/2409.16763v1
- Date: Wed, 25 Sep 2024 09:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:40:43.992332
- Title: Statewide Visual Geolocalization in the Wild
- Title(参考訳): 野生における全国的な視覚的ジオローカライゼーション
- Authors: Florian Fervers, Sebastian Bullinger, Christoph Bodensteiner, Michael Arens, Rainer Stiefelhagen,
- Abstract要約: 本研究では,空中参照画像のデータベースと照合することにより,州規模の検索領域内において野生で撮影されたストリートビュー画像の位置を予測できる手法を提案する。
探索領域を地理的なセルに分割し、セルと対応する画像を、テスト時に検索を行うために使用される共同埋め込み空間にマッピングするモデルを訓練する。
実験により、この方法はマサチューセッツ州のクラウドソーシングプラットフォームMapillaryにアップロードされた全ストリートビュー写真の60.6%を、地道な場所の50m以内にローカライズすることに成功した。
- 参考スコア(独自算出の注目度): 25.978498270475747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a method that is able to predict the geolocation of a street-view photo taken in the wild within a state-sized search region by matching against a database of aerial reference imagery. We partition the search region into geographical cells and train a model to map cells and corresponding photos into a joint embedding space that is used to perform retrieval at test time. The model utilizes aerial images for each cell at multiple levels-of-detail to provide sufficient information about the surrounding scene. We propose a novel layout of the search region with consistent cell resolutions that allows scaling to large geographical regions. Experiments demonstrate that the method successfully localizes 60.6% of all non-panoramic street-view photos uploaded to the crowd-sourcing platform Mapillary in the state of Massachusetts to within 50m of their ground-truth location. Source code is available at https://github.com/fferflo/statewide-visual-geolocalization.
- Abstract(参考訳): 本研究では,空中参照画像のデータベースと照合することにより,州規模の検索領域内において野生で撮影されたストリートビュー画像の位置を予測できる手法を提案する。
探索領域を地理的なセルに分割し、セルと対応する画像を、テスト時に検索を行うために使用される共同埋め込み空間にマッピングするモデルを訓練する。
モデルは各セルの複数のレベルにおける空中画像を利用して、周囲のシーンについて十分な情報を提供する。
本研究では,大規模な地理的領域へのスケーリングを可能にするセル解像度の整合性を持った検索領域のレイアウトを提案する。
実験により、この方法はマサチューセッツ州のクラウドソーシングプラットフォームMapillaryにアップロードされた全ストリートビュー写真の60.6%を、地道な場所の50m以内にローカライズすることに成功した。
ソースコードはhttps://github.com/fferflo/statewide-visual-geolocalizationで公開されている。
関連論文リスト
- OpenStreetView-5M: The Many Roads to Global Visual Geolocation [16.468438245804684]
我々は5100万以上のジオレファレンスストリートビュー画像からなる大規模オープンアクセスデータセットOpenStreetView-5Mを紹介した。
既存のベンチマークとは対照的に、厳格な列車/テスト分離を強制し、学習された地理的特徴の関連性を評価する。
データセットの有用性を実証するために,様々な最先端の画像エンコーダ,空間表現,トレーニング戦略の広範なベンチマークを行う。
論文 参考訳(メタデータ) (2024-04-29T17:06:44Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。