論文の概要: Rethinking Visual Geo-localization for Large-Scale Applications
- arxiv url: http://arxiv.org/abs/2204.02287v2
- Date: Thu, 7 Apr 2022 12:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 11:16:06.178741
- Title: Rethinking Visual Geo-localization for Large-Scale Applications
- Title(参考訳): 大規模応用のためのビジュアルジオローカライズ再考
- Authors: Gabriele Berton, Carlo Masone, Barbara Caputo
- Abstract要約: サンフランシスコのeXtra Largeは、都市全体をカバーする新しいデータセットで、さまざまな困難なケースを提供します。
我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、そのトレーニングを分類問題として位置づける。
幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。
- 参考スコア(独自算出の注目度): 18.09618985653891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Geo-localization (VG) is the task of estimating the position where a
given photo was taken by comparing it with a large database of images of known
locations. To investigate how existing techniques would perform on a real-world
city-wide VG application, we build San Francisco eXtra Large, a new dataset
covering a whole city and providing a wide range of challenging cases, with a
size 30x bigger than the previous largest dataset for visual geo-localization.
We find that current methods fail to scale to such large datasets, therefore we
design a new highly scalable training technique, called CosPlace, which casts
the training as a classification problem avoiding the expensive mining needed
by the commonly used contrastive learning. We achieve state-of-the-art
performance on a wide range of datasets and find that CosPlace is robust to
heavy domain changes. Moreover, we show that, compared to the previous
state-of-the-art, CosPlace requires roughly 80% less GPU memory at train time,
and it achieves better results with 8x smaller descriptors, paving the way for
city-wide real-world visual geo-localization. Dataset, code and trained models
are available for research purposes at https://github.com/gmberton/CosPlace.
- Abstract(参考訳): ビジュアルジオローカライズ(vg)は、既知の場所の画像の大規模なデータベースと比較することにより、所定の写真が撮影された場所を推定するタスクである。
既存の技術が現実世界のvgアプリケーションでどのように機能するかを調べるために、私たちはサンフランシスコのextreme largeを構築しました。これは、都市全体をカバーする新しいデータセットで、以前の最大のビジュアルジオローカライズ用データセットの30倍の大きさの、幅広い挑戦的なケースを提供します。
そのため、我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、一般的なコントラスト学習で必要とされる高価なマイニングを避けるために、トレーニングを分類問題にしている。
幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。
さらに,従来の最先端技術と比較して,CosPlaceでは,列車時のGPUメモリの約80%削減が必要であり,より少ない8倍のディスクリプタで良好な結果が得られ,都市全体のビジュアルジオローカライゼーションが実現された。
データセット、コード、トレーニングされたモデルは、https://github.com/gmberton/cosplaceで研究目的に利用できる。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians [64.6687065215713]
CityGaussianは、大規模な3DGSのトレーニングとレンダリングを効率化するために、新しい分別/分別トレーニングアプローチとLevel-of-Detail(LoD)戦略を採用している。
我々のアプローチは最先端のレンダリング品質を実現し、大規模なシーンを全く異なるスケールで一貫したリアルタイムレンダリングを可能にする。
論文 参考訳(メタデータ) (2024-04-01T14:24:40Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - GSV-Cities: Toward Appropriate Supervised Visual Place Recognition [3.6739949215165164]
我々は,GSV-Citiesという画像データセットを紹介した。
次に、位置認識に特化してネットワークをトレーニングするディープメトリックス学習の進歩の可能性について検討する。
ピッツバーグ、Mapillary-SLS、SPED、Norlandといった大規模ベンチマークで、最先端の新たなベンチマークを確立します。
論文 参考訳(メタデータ) (2022-10-19T01:39:29Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z) - Robust Image Retrieval-based Visual Localization using Kapture [10.249293519246478]
視覚的ローカライゼーションのための多用途パイプラインを提案する。
8つの公開データセットで評価し、それらが上位にランクされ、その多くが上位にランクされている。
今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
論文 参考訳(メタデータ) (2020-07-27T21:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。