Fugu-MT 論文翻訳(概要): GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization

論文の概要: GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization

arxiv url: http://arxiv.org/abs/2309.16020v1
Date: Wed, 27 Sep 2023 20:54:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 18:46:39.605544
Title: GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
Title（参考訳）: GeoCLIP: 位置と画像のクリップインスパイアされたアライメントによる世界規模のジオローカライゼーション
Authors: Vicente Vivanco Cepeda, Gaurav Kumar Nayak, Mubarak Shah
Abstract要約: 世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
参考スコア（独自算出の注目度）: 61.10806364001535
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Worldwide Geo-localization aims to pinpoint the precise location of images taken anywhere on Earth. This task has considerable challenges due to immense variation in geographic landscapes. The image-to-image retrieval-based approaches fail to solve this problem on a global scale as it is not feasible to construct a large gallery of images covering the entire world. Instead, existing approaches divide the globe into discrete geographic cells, transforming the problem into a classification task. However, their performance is limited by the predefined classes and often results in inaccurate localizations when an image's location significantly deviates from its class center. To overcome these limitations, we propose GeoCLIP, a novel CLIP-inspired Image-to-GPS retrieval approach that enforces alignment between the image and its corresponding GPS locations. GeoCLIP's location encoder models the Earth as a continuous function by employing positional encoding through random Fourier features and constructing a hierarchical representation that captures information at varying resolutions to yield a semantically rich high-dimensional feature suitable to use even beyond geo-localization. To the best of our knowledge, this is the first work employing GPS encoding for geo-localization. We demonstrate the efficacy of our method via extensive experiments and ablations on benchmark datasets. We achieve competitive performance with just 20% of training data, highlighting its effectiveness even in limited-data settings. Furthermore, we qualitatively demonstrate geo-localization using a text query by leveraging CLIP backbone of our image encoder.
Abstract（参考訳）: 世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。この課題は、地理的景観の大幅な変化による大きな課題である。画像から画像への検索に基づくアプローチは、世界全体をカバーする大規模な画像ギャラリーを構築することができないため、この問題を解決できない。代わりに、既存のアプローチは地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。しかし、それらの性能は予め定義されたクラスによって制限され、しばしば、画像の位置がクラス中心から著しくずれるときに不正確なローカライズをもたらす。このような制約を克服するために,新しいCLIPにインスパイアされた画像からGPSへの検索手法であるGeoCLIPを提案する。 GeoCLIPのロケーションエンコーダは、ランダムなフーリエ特徴を通して位置エンコーディングを使用して地球を連続関数としてモデル化し、様々な解像度で情報をキャプチャして、地理的ローカライゼーションを超えて使うのに適した意味的にリッチな高次元特徴を与える階層的な表現を構築する。我々の知る限りでは、ジオローカライゼーションにGPSエンコーディングを利用した最初の作品である。ベンチマークデータセットにおける広範囲な実験とアブレーションにより,本手法の有効性を実証する。トレーニングデータのわずか20%で競合性能を達成し、限られたデータ設定でもその有効性を強調します。さらに,画像エンコーダのCLIPバックボーンを活用することで,テキストクエリを用いた地理的ローカライゼーションを質的に実証する。

関連論文リスト

Scaling Image Geo-Localization to Continent Level [48.7766435870634]
本稿では,大陸規模を拡大する大規模地形をまたいだ微粒な地理的局在化を実現するためのハイブリッドアプローチを提案する。我々は、訓練中にプロキシ分類タスクを利用して、正確な位置情報を暗黙的にエンコードするリッチな特徴表現を学習する。我々の評価は,ヨーロッパの大部分をカバーするデータセットのクエリの68%以上を200m以内でローカライズできることを示す。
論文参考訳（メタデータ） (2025-10-30T17:59:35Z)
LocDiffusion: Identifying Locations on Earth by Diffusing in the Hilbert Space [10.342723428164412]
画像ジオローカライズのためのメカニズムとして拡散を利用する手法を提案する。拡散における問題のある多様体再生成のステップを避けるため,我々は新しい球面位置符号化・復号化フレームワークを開発した。我々は、画像の誘導の下で位置を生成するLocDiffusionと呼ばれる条件付き潜伏拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-03-23T17:15:26Z)
Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文参考訳（メタデータ） (2025-02-19T14:21:25Z)
CityGuessr: City-Level Video Geo-Localization on a Global Scale [54.371452373726584]
本稿では, 都市, 州, 国, 大陸を階層的に予測することを目的とした, グローバルな地平化の新たな課題を提案する。この問題を解決するためのモデルをトレーニングするために、世界中をカバーした大規模なビデオデータセットは存在しない。我々は、世界中の166都市から68,269の動画からなる新しいデータセット、CityGuessr68kを紹介した。
論文参考訳（メタデータ） (2024-11-10T03:20:00Z)
Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。その結果,本手法は現在の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-21T03:31:30Z)
G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models [40.69217368870192]
我々は、レトリーバル拡張世代(RAG)に基づく世界規模の地理的ローカライゼーションのための新しい枠組みを提案する。 G3は、ジオアライメント、ジオディバーシフィケーション、ジオビジュアライゼーションの3つのステップから構成される。 2つの確立されたデータセットの実験は、他の最先端手法と比較してG3の優位性を検証する。
論文参考訳（メタデータ） (2024-05-23T15:37:06Z)
PIGEON: Predicting Image Geolocations [44.99833362998488]
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 PIGEOTTOは、目に見えない場所に効果的に一般化する最初の画像ジオローカライズモデルである。
論文参考訳（メタデータ） (2023-07-11T23:36:49Z)
G^3: Geolocation via Guidebook Grounding [92.46774241823562]
本研究では,人間が位置情報に用いている視覚的特徴を記述した人書きガイドブックから,明示的な知識について検討する。多様な場所からのストリートビュー画像のデータセットを用いたガイドブックグラウンディングによるジオロケーションのタスクを提案する。提案手法は,Top-1の精度が5%以上向上し,最先端の画像のみの位置決め法よりも大幅に向上する。
論文参考訳（メタデータ） (2022-11-28T16:34:40Z)
A Gis Aided Approach for Geolocalizing an Unmanned Aerial System Using Deep Learning [0.4297070083645048]
本稿では,GPS信号の劣化や拒否時にUASをジオローカライズする手法を提案する。 UASは、プラットフォームが飛ぶとリアルタイム画像を取得することができる、下向きのカメラをプラットフォーム上に備えているので、ジオローカライゼーションを実現するために、最新のディープラーニング技術を適用します。我々は,OpenStreetMap (OSM) からGIS情報を抽出し,意味的に一致した特徴をビルディングクラスとランドスケープクラスに分割する。
論文参考訳（メタデータ） (2022-08-25T17:51:15Z)
Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文参考訳（メタデータ） (2022-03-26T20:10:38Z)
Visual and Object Geo-localization: A Comprehensive Survey [11.120155713865918]
ジオローカライゼーション(ジオローカライゼーション)とは、地球上の「ある実体がどこにあるか」を決定する過程のこと。本稿では、画像の撮影場所(画像ジオローカライゼーション)や画像内の物体の位置決め(オブジェクトジオローカライゼーション)を含む、画像を含む画像の地理的ローカライゼーションに関する包括的調査を行う。本稿では、一般的なアルゴリズムの要約、提案したデータセットの説明、各分野の現状を説明するためのパフォーマンス結果の分析など、詳細な研究を行う。
論文参考訳（メタデータ） (2021-12-30T20:46:53Z)
Hierarchical Attention Fusion for Geo-Localization [7.544917072241684]
地理的ローカライゼーションのためのマルチスケール特徴を用いた階層型アテンション融合ネットワークを提案する。畳み込みニューラルネットワーク(cnn)から階層的特徴マップを抽出し,抽出した特徴を画像表現に有機的に融合する。学習は適応重みを用いて自己監督され,各階層レベルから特徴強調の注意を制御できる。
論文参考訳（メタデータ） (2021-02-18T07:07:03Z)
Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-08-26T16:06:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。