論文の概要: OpenStreetView-5M: The Many Roads to Global Visual Geolocation
- arxiv url: http://arxiv.org/abs/2404.18873v1
- Date: Mon, 29 Apr 2024 17:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:48:52.964931
- Title: OpenStreetView-5M: The Many Roads to Global Visual Geolocation
- Title(参考訳): OpenStreetView-5M: グローバルなビジュアルジオロケーションへの多くの道
- Authors: Guillaume Astruc, Nicolas Dufour, Ioannis Siglidis, Constantin Aronssohn, Nacim Bouia, Stephanie Fu, Romain Loiseau, Van Nguyen Nguyen, Charles Raude, Elliot Vincent, Lintao XU, Hongyu Zhou, Loic Landrieu,
- Abstract要約: 我々は5100万以上のジオレファレンスストリートビュー画像からなる大規模オープンアクセスデータセットOpenStreetView-5Mを紹介した。
既存のベンチマークとは対照的に、厳格な列車/テスト分離を強制し、学習された地理的特徴の関連性を評価する。
データセットの有用性を実証するために,様々な最先端の画像エンコーダ,空間表現,トレーニング戦略の広範なベンチマークを行う。
- 参考スコア(独自算出の注目度): 16.468438245804684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the location of an image anywhere on Earth is a complex visual task, which makes it particularly relevant for evaluating computer vision algorithms. Yet, the absence of standard, large-scale, open-access datasets with reliably localizable images has limited its potential. To address this issue, we introduce OpenStreetView-5M, a large-scale, open-access dataset comprising over 5.1 million geo-referenced street view images, covering 225 countries and territories. In contrast to existing benchmarks, we enforce a strict train/test separation, allowing us to evaluate the relevance of learned geographical features beyond mere memorization. To demonstrate the utility of our dataset, we conduct an extensive benchmark of various state-of-the-art image encoders, spatial representations, and training strategies. All associated codes and models can be found at https://github.com/gastruc/osv5m.
- Abstract(参考訳): 地球上のどこでも画像の位置を決定することは、複雑な視覚的タスクであり、コンピュータビジョンアルゴリズムの評価に特に関係している。
しかし、画像が確実にローカライズ可能な標準で大規模なオープンアクセスデータセットが存在しないため、そのポテンシャルは制限されている。
この問題に対処するため、我々は225か国と領域をカバーする5100万以上のストリートビュー画像からなる大規模なオープンアクセスデータセットOpenStreetView-5Mを紹介した。
既存のベンチマークとは対照的に、厳格な列車/テスト分離を強制し、学習された地理的特徴が単なる記憶以上の関連性を評価することができる。
データセットの有用性を実証するために,様々な最先端の画像エンコーダ,空間表現,トレーニング戦略の広範なベンチマークを行う。
関連するコードとモデルはすべてhttps://github.com/gastruc/osv5m.comにある。
関連論文リスト
- Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。
本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文 参考訳(メタデータ) (2024-06-13T17:57:30Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place
Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。
データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。
そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-03T19:58:09Z) - Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。
本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。
本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文 参考訳(メタデータ) (2021-12-30T20:46:53Z) - Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset,
Benchmarks and Challenges [52.624157840253204]
我々は、30億点近い注釈付きポイントを持つ都市規模の測光点クラウドデータセットを提示する。
私たちのデータセットは、イギリスの3つの都市からなり、都市の景観の約7.6km2をカバーしています。
我々は,データセット上での最先端アルゴリズムの性能を評価し,その結果を包括的に分析する。
論文 参考訳(メタデータ) (2020-09-07T14:47:07Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。