論文の概要: CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement
- arxiv url: http://arxiv.org/abs/2311.11604v1
- Date: Mon, 20 Nov 2023 08:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:28:21.697622
- Title: CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement
- Title(参考訳): curriculumloc:多段階改良によるクロスドメインジオローカライゼーションの促進
- Authors: Boni Hu, Lin Chen, Runjian Chen, Shuhui Bu, Pengcheng Han, Haowei Li
- Abstract要約: ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
- 参考スコア(独自算出の注目度): 11.108860387261508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual geolocalization is a cost-effective and scalable task that involves
matching one or more query images, taken at some unknown location, to a set of
geo-tagged reference images. Existing methods, devoted to semantic features
representation, evolving towards robustness to a wide variety between query and
reference, including illumination and viewpoint changes, as well as scale and
seasonal variations. However, practical visual geolocalization approaches need
to be robust in appearance changing and extreme viewpoint variation conditions,
while providing accurate global location estimates. Therefore, inspired by
curriculum design, human learn general knowledge first and then delve into
professional expertise. We first recognize semantic scene and then measure
geometric structure. Our approach, termed CurriculumLoc, involves a delicate
design of multi-stage refinement pipeline and a novel keypoint detection and
description with global semantic awareness and local geometric verification. We
rerank candidates and solve a particular cross-domain perspective-n-point (PnP)
problem based on these keypoints and corresponding descriptors, position
refinement occurs incrementally. The extensive experimental results on our
collected dataset, TerraTrack and a benchmark dataset, ALTO, demonstrate that
our approach results in the aforementioned desirable characteristics of a
practical visual geolocalization solution. Additionally, we achieve new high
recall@1 scores of 62.6% and 94.5% on ALTO, with two different distances
metrics, respectively. Dataset, code and trained models are publicly available
on https://github.com/npupilab/CurriculumLoc.
- Abstract(参考訳): ビジュアルジオローカライズ(visual geolocalization)はコスト効率が高くスケーラブルなタスクで、未知の場所にある1つ以上のクエリイメージと、ジオタグ付き参照イメージのセットをマッチングする。
既存の手法はセマンティックな特徴表現に特化しており、照度や視点の変化、スケールや季節の変動など、クエリと参照の幅広いバリエーションに頑健さに向かって進化している。
しかし、実際の視覚的ジオローカライズ手法は、正確なグローバルな位置推定を提供しながら、外観変化や極端な視点変化条件において堅牢である必要がある。
そのため、カリキュラム設計に着想を得て、まず人間は一般的な知識を学習し、次に専門的な専門知識を習得する。
まずセマンティックなシーンを認識し、次に幾何学的構造を測る。
提案手法は,多段階リファインメントパイプラインの繊細な設計と,グローバル意味認識と局所幾何学的検証を備えた新しいキーポイント検出と記述を含む。
我々はこれらのキーポイントと対応する記述子に基づいて、候補を再検討し、特定のドメイン間視点-n-point(PnP)問題を解く。
収集したデータセットであるTerraTrackとベンチマークデータセットであるALTOの広範な実験結果から,本手法が実際の視覚的ジオローカライゼーションソリューションの望ましい特性をもたらすことを示す。
さらに,altoで62.6%,94.5%のハイリコール@1スコアをそれぞれ2つの異なる距離指標で達成した。
データセット、コード、トレーニングされたモデルはhttps://github.com/npupilab/curriculumlocで公開されている。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - TorchSpatial: A Location Encoding Framework and Benchmark for Spatial Representation Learning [36.725822223732635]
位置(ポイント)エンコーディングのための学習フレームワークとベンチマークであるTorchSpatialを提案する。
TorchSpatialには3つの重要なコンポーネントが含まれている: 1) 一般的に認識されている15のロケーションエンコーダを統合する統合されたロケーションエンコーダフレームワーク、2) LocBenchベンチマークタスクは、7つのジオアウェアイメージ分類と4つのジオアウェアイメージ回帰データセットを含む。
論文 参考訳(メタデータ) (2024-06-21T21:33:16Z) - ConGeo: Robust Cross-view Geo-localization across Ground View Variations [34.192775134189965]
クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。
既存の学習パイプラインはオリエンテーションに特化しているか、FoVに特化している。
本研究では,地形定位のためのコントラスト法であるConGeoを提案する。
論文 参考訳(メタデータ) (2024-03-20T20:37:13Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。