Fugu-MT 論文翻訳(概要): Rethinking Visual Geo-localization for Large-Scale Applications

論文の概要: Rethinking Visual Geo-localization for Large-Scale Applications

arxiv url: http://arxiv.org/abs/2204.02287v2
Date: Thu, 7 Apr 2022 12:57:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-08 11:16:06.178741
Title: Rethinking Visual Geo-localization for Large-Scale Applications
Title（参考訳）: 大規模応用のためのビジュアルジオローカライズ再考
Authors: Gabriele Berton, Carlo Masone, Barbara Caputo
Abstract要約: サンフランシスコのeXtra Largeは、都市全体をカバーする新しいデータセットで、さまざまな困難なケースを提供します。我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、そのトレーニングを分類問題として位置づける。幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。
参考スコア（独自算出の注目度）: 18.09618985653891
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Geo-localization (VG) is the task of estimating the position where a given photo was taken by comparing it with a large database of images of known locations. To investigate how existing techniques would perform on a real-world city-wide VG application, we build San Francisco eXtra Large, a new dataset covering a whole city and providing a wide range of challenging cases, with a size 30x bigger than the previous largest dataset for visual geo-localization. We find that current methods fail to scale to such large datasets, therefore we design a new highly scalable training technique, called CosPlace, which casts the training as a classification problem avoiding the expensive mining needed by the commonly used contrastive learning. We achieve state-of-the-art performance on a wide range of datasets and find that CosPlace is robust to heavy domain changes. Moreover, we show that, compared to the previous state-of-the-art, CosPlace requires roughly 80% less GPU memory at train time, and it achieves better results with 8x smaller descriptors, paving the way for city-wide real-world visual geo-localization. Dataset, code and trained models are available for research purposes at https://github.com/gmberton/CosPlace.
Abstract（参考訳）: ビジュアルジオローカライズ(vg)は、既知の場所の画像の大規模なデータベースと比較することにより、所定の写真が撮影された場所を推定するタスクである。既存の技術が現実世界のvgアプリケーションでどのように機能するかを調べるために、私たちはサンフランシスコのextreme largeを構築しました。これは、都市全体をカバーする新しいデータセットで、以前の最大のビジュアルジオローカライズ用データセットの30倍の大きさの、幅広い挑戦的なケースを提供します。そのため、我々はCosPlaceと呼ばれる新しい高度にスケーラブルなトレーニングテクニックを設計し、一般的なコントラスト学習で必要とされる高価なマイニングを避けるために、トレーニングを分類問題にしている。幅広いデータセットで最先端のパフォーマンスを実現し、CosPlaceがドメイン変更に対して堅牢であることに気付きました。さらに,従来の最先端技術と比較して,CosPlaceでは,列車時のGPUメモリの約80%削減が必要であり,より少ない8倍のディスクリプタで良好な結果が得られ,都市全体のビジュアルジオローカライゼーションが実現された。データセット、コード、トレーニングされたモデルは、https://github.com/gmberton/cosplaceで研究目的に利用できる。

関連論文リスト

Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization [66.87005863868181]
可視性グラフに基づくグローバルエンコーディング学習とデータ拡張戦略を導入する。ネットワークアーキテクチャとローカル特徴抽出モジュールを再考する。本手法は,ネットワークアンサンブルや3D監視に頼ることなく,大規模データセットに挑戦する最先端の手法を実現する。
論文参考訳（メタデータ） (2025-01-02T18:59:08Z)
CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文参考訳（メタデータ） (2024-11-10T03:20:00Z)
CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians [64.6687065215713]
CityGaussianは、大規模な3DGSのトレーニングとレンダリングを効率化するために、新しい分別/分別トレーニングアプローチとLevel-of-Detail(LoD)戦略を採用している。我々のアプローチは最先端のレンダリング品質を実現し、大規模なシーンを全く異なるスケールで一貫したリアルタイムレンダリングを可能にする。
論文参考訳（メタデータ） (2024-04-01T14:24:40Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文参考訳（メタデータ） (2023-07-11T23:36:49Z)
GSV-Cities: Toward Appropriate Supervised Visual Place Recognition [3.6739949215165164]
我々は,GSV-Citiesという画像データセットを紹介した。次に、位置認識に特化してネットワークをトレーニングするディープメトリックス学習の進歩の可能性について検討する。ピッツバーグ、Mapillary-SLS、SPED、Norlandといった大規模ベンチマークで、最先端の新たなベンチマークを確立します。
論文参考訳（メタデータ） (2022-10-19T01:39:29Z)
Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文参考訳（メタデータ） (2022-03-26T20:10:38Z)
CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文参考訳（メタデータ） (2021-12-16T18:05:48Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)
Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文参考訳（メタデータ） (2020-09-07T14:47:07Z)
Robust Image Retrieval-based Visual Localization using Kapture [10.249293519246478]
視覚的ローカライゼーションのための多用途パイプラインを提案する。 8つの公開データセットで評価し、それらが上位にランクされ、その多くが上位にランクされている。今後の研究を促進するため、我々は、BSDライセンス下でオープンソースであるKaptureフォーマットで、コード、モデル、およびすべてのデータセットをリリースする。
論文参考訳（メタデータ） (2020-07-27T21:10:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。