論文の概要: Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence
- arxiv url: http://arxiv.org/abs/2212.04074v3
- Date: Fri, 16 Jun 2023 17:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 18:06:00.082697
- Title: Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence
- Title(参考訳): 異方性幾何レイアウト対応学習によるクロスビュージオローカライズ
- Authors: Xiaohan Zhang, Xingyu Li, Waqas Sultani, Yi Zhou, Safwan Wshah
- Abstract要約: クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
- 参考スコア(独自算出の注目度): 11.823147814005411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization aims to estimate the location of a query ground
image by matching it to a reference geo-tagged aerial images database. As an
extremely challenging task, its difficulties root in the drastic view changes
and different capturing time between two views. Despite these difficulties,
recent works achieve outstanding progress on cross-view geo-localization
benchmarks. However, existing methods still suffer from poor performance on the
cross-area benchmarks, in which the training and testing data are captured from
two different regions. We attribute this deficiency to the lack of ability to
extract the spatial configuration of visual feature layouts and models'
overfitting on low-level details from the training set. In this paper, we
propose GeoDTR which explicitly disentangles geometric information from raw
features and learns the spatial correlations among visual features from aerial
and ground pairs with a novel geometric layout extractor module. This module
generates a set of geometric layout descriptors, modulating the raw features
and producing high-quality latent representations. In addition, we elaborate on
two categories of data augmentations, (i) Layout simulation, which varies the
spatial configuration while keeping the low-level details intact. (ii) Semantic
augmentation, which alters the low-level details and encourages the model to
capture spatial configurations. These augmentations help to improve the
performance of the cross-view geo-localization models, especially on the
cross-area benchmarks. Moreover, we propose a counterfactual-based learning
process to benefit the geometric layout extractor in exploring spatial
information. Extensive experiments show that GeoDTR not only achieves
state-of-the-art results but also significantly boosts the performance on
same-area and cross-area benchmarks.
- Abstract(参考訳): クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
極めて困難な課題として、その困難は、劇的な視点の変化と、2つの視点の間の異なるキャプチャ時間に根ざしている。
これらの困難にもかかわらず、最近の研究はクロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は、トレーニングとテストのデータが2つの異なる領域から取得されるクロスエリアベンチマークのパフォーマンスに苦しむ。
この不足は、視覚特徴レイアウトの空間的構成や、トレーニングセットから低レベルの詳細を過小評価するモデルの能力の欠如を特徴としている。
本稿では,ジオDTRを提案する。ジオDTRは,空間的特徴量と空間的特徴量との相関関係を,新しい幾何学的レイアウト抽出モジュールを用いて学習する。
このモジュールは幾何レイアウト記述子の集合を生成し、生の特徴を変調し、高品質な潜在表現を生成する。
さらに、データ拡張の2つのカテゴリについて詳しく述べる。
(i)低レベルの詳細をそのまま保ちながら空間構成を変化させるレイアウトシミュレーション。
(ii)低レベルな詳細を変更し、モデルが空間的構成を捉えるように促す意味的拡張。
これらの拡張は、特にクロスエリアベンチマークにおいて、クロスビューなジオローカライゼーションモデルの性能を向上させるのに役立つ。
さらに,空間情報の探索において,幾何学的レイアウト抽出の利点を生かした対実的学習手法を提案する。
大規模な実験により、GeoDTRは最先端の結果を達成するだけでなく、同領域および異領域のベンチマークの性能を大幅に向上させることが示された。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - ConGeo: Robust Cross-view Geo-localization across Ground View Variations [34.192775134189965]
クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。
既存の学習パイプラインはオリエンテーションに特化しているか、FoVに特化している。
本研究では,地形定位のためのコントラスト法であるConGeoを提案する。
論文 参考訳(メタデータ) (2024-03-20T20:37:13Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement [20.346145927174373]
Cross-View Geo-Localization (CVGL) は、データベース内のジオタグ付き空中画像とマッチングすることで、地上画像の位置を推定する。
既存の手法は、トレーニングデータとテストデータが完全に異なる領域から取得されるクロスエリア評価において、依然としてパフォーマンスの低下に悩まされている。
視覚的特徴の幾何学的レイアウトを抽出する能力の欠如と,低レベルの細部への過度な適合が原因と考えられる。
本研究では,視覚的特徴間の相関をモデル化する拡張GLEモジュールを用いたGeoDTR+を提案する。
論文 参考訳(メタデータ) (2023-08-18T15:32:01Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Sample4Geo: Hard Negative Sampling For Cross-View Geo-Localisation [2.3020018305241337]
対称なInfoNCE損失を伴うコントラスト学習に基づく,シンプルだが効果的なアーキテクチャを提案する。
私たちのフレームワークは、アグリゲーションモジュールの使用を不要にする、狭いトレーニングパイプラインで構成されています。
本研究は,CVUSA,CVACT,University-1652,VIGORなどの一般的なクロスビューデータセットに対して,優れた性能を示す。
論文 参考訳(メタデータ) (2023-03-21T13:49:49Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。