論文の概要: GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization
- arxiv url: http://arxiv.org/abs/2309.16020v2
- Date: Tue, 21 Nov 2023 23:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:28:50.968118
- Title: GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization
- Title(参考訳): GeoCLIP: 位置と画像のクリップインスパイアされたアライメントによる世界規模のジオローカライゼーション
- Authors: Vicente Vivanco Cepeda, Gaurav Kumar Nayak, Mubarak Shah
- Abstract要約: 世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
- 参考スコア(独自算出の注目度): 61.10806364001535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Worldwide Geo-localization aims to pinpoint the precise location of images
taken anywhere on Earth. This task has considerable challenges due to immense
variation in geographic landscapes. The image-to-image retrieval-based
approaches fail to solve this problem on a global scale as it is not feasible
to construct a large gallery of images covering the entire world. Instead,
existing approaches divide the globe into discrete geographic cells,
transforming the problem into a classification task. However, their performance
is limited by the predefined classes and often results in inaccurate
localizations when an image's location significantly deviates from its class
center. To overcome these limitations, we propose GeoCLIP, a novel
CLIP-inspired Image-to-GPS retrieval approach that enforces alignment between
the image and its corresponding GPS locations. GeoCLIP's location encoder
models the Earth as a continuous function by employing positional encoding
through random Fourier features and constructing a hierarchical representation
that captures information at varying resolutions to yield a semantically rich
high-dimensional feature suitable to use even beyond geo-localization. To the
best of our knowledge, this is the first work employing GPS encoding for
geo-localization. We demonstrate the efficacy of our method via extensive
experiments and ablations on benchmark datasets. We achieve competitive
performance with just 20% of training data, highlighting its effectiveness even
in limited-data settings. Furthermore, we qualitatively demonstrate
geo-localization using a text query by leveraging CLIP backbone of our image
encoder. The project webpage is available at:
https://vicentevivan.github.io/GeoCLIP
- Abstract(参考訳): 世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
この課題は、地理的景観の大幅な変化による大きな課題である。
画像から画像への検索に基づくアプローチは、世界全体をカバーする大規模な画像ギャラリーを構築することができないため、この問題を解決できない。
代わりに、既存のアプローチは地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
しかし、それらの性能は予め定義されたクラスによって制限され、しばしば、画像の位置がクラス中心から著しくずれるときに不正確なローカライズをもたらす。
このような制約を克服するために,新しいCLIPにインスパイアされた画像からGPSへの検索手法であるGeoCLIPを提案する。
GeoCLIPのロケーションエンコーダは、ランダムなフーリエ特徴を通して位置エンコーディングを使用して地球を連続関数としてモデル化し、様々な解像度で情報をキャプチャして、地理的ローカライゼーションを超えて使うのに適した意味的にリッチな高次元特徴を与える階層的な表現を構築する。
我々の知る限りでは、ジオローカライゼーションにGPSエンコーディングを利用した最初の作品である。
ベンチマークデータセットにおける広範囲な実験とアブレーションにより,本手法の有効性を実証する。
トレーニングデータのわずか20%で競合性能を達成し、限られたデータ設定でもその有効性を強調します。
さらに,画像エンコーダのCLIPバックボーンを活用することで,テキストクエリを用いた地理的ローカライゼーションを質的に実証する。
プロジェクトのwebページは、https://vicentevivan.github.io/geoclip
関連論文リスト
- CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。
この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。
我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文 参考訳(メタデータ) (2024-11-10T03:20:00Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。
G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。
2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:37:06Z) - PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文 参考訳(メタデータ) (2023-07-11T23:36:49Z) - G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。
多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。
提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文 参考訳(メタデータ) (2022-11-28T16:34:40Z) - A Gis Aided Approach for Geolocalizing an Unmanned Aerial System Using
Deep Learning [0.4297070083645048]
本稿では,GPS信号の劣化や拒否時にUASをジオローカライズする手法を提案する。
UASは、プラットフォームが飛ぶとリアルタイム画像を取得することができる、下向きのカメラをプラットフォーム上に備えているので、ジオローカライゼーションを実現するために、最新のディープラーニング技術を適用します。
我々は,OpenStreetMap (OSM) からGIS情報を抽出し,意味的に一致した特徴をビルディングクラスとランドスケープクラスに分割する。
論文 参考訳(メタデータ) (2022-08-25T17:51:15Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。
本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。
本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文 参考訳(メタデータ) (2021-12-30T20:46:53Z) - Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。
畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。
学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文 参考訳(メタデータ) (2021-02-18T07:07:03Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。