論文の概要: OpenStreetView-5M: The Many Roads to Global Visual Geolocation
- arxiv url: http://arxiv.org/abs/2404.18873v1
- Date: Mon, 29 Apr 2024 17:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:48:52.964931
- Title: OpenStreetView-5M: The Many Roads to Global Visual Geolocation
- Title(参考訳): OpenStreetView-5M: グローバルなビジュアルジオロケーションへの多くの道
- Authors: Guillaume Astruc, Nicolas Dufour, Ioannis Siglidis, Constantin Aronssohn, Nacim Bouia, Stephanie Fu, Romain Loiseau, Van Nguyen Nguyen, Charles Raude, Elliot Vincent, Lintao XU, Hongyu Zhou, Loic Landrieu,
- Abstract要約: 我々は5100万以上のジオレファレンスストリートビュー画像からなる大規模オープンアクセスデータセットOpenStreetView-5Mを紹介した。
既存のベンチマークとは対照的に、厳格な列車/テスト分離を強制し、学習された地理的特徴の関連性を評価する。
データセットの有用性を実証するために,様々な最先端の画像エンコーダ,空間表現,トレーニング戦略の広範なベンチマークを行う。
- 参考スコア(独自算出の注目度): 16.468438245804684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the location of an image anywhere on Earth is a complex visual task, which makes it particularly relevant for evaluating computer vision algorithms. Yet, the absence of standard, large-scale, open-access datasets with reliably localizable images has limited its potential. To address this issue, we introduce OpenStreetView-5M, a large-scale, open-access dataset comprising over 5.1 million geo-referenced street view images, covering 225 countries and territories. In contrast to existing benchmarks, we enforce a strict train/test separation, allowing us to evaluate the relevance of learned geographical features beyond mere memorization. To demonstrate the utility of our dataset, we conduct an extensive benchmark of various state-of-the-art image encoders, spatial representations, and training strategies. All associated codes and models can be found at https://github.com/gastruc/osv5m.
- Abstract(参考訳): 地球上のどこでも画像の位置を決定することは、複雑な視覚的タスクであり、コンピュータビジョンアルゴリズムの評価に特に関係している。
しかし、画像が確実にローカライズ可能な標準で大規模なオープンアクセスデータセットが存在しないため、そのポテンシャルは制限されている。
この問題に対処するため、我々は225か国と領域をカバーする5100万以上のストリートビュー画像からなる大規模なオープンアクセスデータセットOpenStreetView-5Mを紹介した。
既存のベンチマークとは対照的に、厳格な列車/テスト分離を強制し、学習された地理的特徴が単なる記憶以上の関連性を評価することができる。
データセットの有用性を実証するために,様々な最先端の画像エンコーダ,空間表現,トレーニング戦略の広範なベンチマークを行う。
関連するコードとモデルはすべてhttps://github.com/gastruc/osv5m.comにある。
関連論文リスト
- Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - Statewide Visual Geolocalization in the Wild [25.978498270475747]
本研究では,空中参照画像のデータベースと照合することにより,州規模の検索領域内において野生で撮影されたストリートビュー画像の位置を予測できる手法を提案する。
探索領域を地理的なセルに分割し、セルと対応する画像を、テスト時に検索を行うために使用される共同埋め込み空間にマッピングするモデルを訓練する。
実験により、この方法はマサチューセッツ州のクラウドソーシングプラットフォームMapillaryにアップロードされた全ストリートビュー写真の60.6%を、地道な場所の50m以内にローカライズすることに成功した。
論文 参考訳(メタデータ) (2024-09-25T09:18:19Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network [12.692812966686066]
クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。
そこで我々は,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:03:58Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place
Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。
データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。
そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-03T19:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。