論文の概要: View Distribution Alignment with Progressive Adversarial Learning for
UAV Visual Geo-Localization
- arxiv url: http://arxiv.org/abs/2401.01573v1
- Date: Wed, 3 Jan 2024 06:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:59:00.555247
- Title: View Distribution Alignment with Progressive Adversarial Learning for
UAV Visual Geo-Localization
- Title(参考訳): UAVビジュアルジオローカライゼーションのためのプログレッシブ・ディバイザ・ラーニングを用いたビュー分布アライメント
- Authors: Cuiwei Liu, Jiahao Liu, Huaijun Qiu, Zhaokui Li and Xiangbin Shi
- Abstract要約: 無人航空機(UAV)の視覚的ジオローカライゼーションは、異なるビュー、すなわちUAVビューと衛星ビューから取得した同じ地理的ターゲットの画像とマッチングすることを目的としている。
以前の作業では、UAVや衛星が撮影した画像を共有特徴空間にマッピングし、位置に依存した特徴を学習するための分類フレームワークを使用していた。
本稿では,2つのビューの分布アライメントを導入し,共通空間における距離を短縮する。
- 参考スコア(独自算出の注目度): 10.442998017077795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Aerial Vehicle (UAV) visual geo-localization aims to match images of
the same geographic target captured from different views, i.e., the UAV view
and the satellite view. It is very challenging due to the large appearance
differences in UAV-satellite image pairs. Previous works map images captured by
UAVs and satellites to a shared feature space and employ a classification
framework to learn location-dependent features while neglecting the overall
distribution shift between the UAV view and the satellite view. In this paper,
we address these limitations by introducing distribution alignment of the two
views to shorten their distance in a common space. Specifically, we propose an
end-to-end network, called PVDA (Progressive View Distribution Alignment).
During training, feature encoder, location classifier, and view discriminator
are jointly optimized by a novel progressive adversarial learning strategy.
Competition between feature encoder and view discriminator prompts both of them
to be stronger. It turns out that the adversarial learning is progressively
emphasized until UAV-view images are indistinguishable from satellite-view
images. As a result, the proposed PVDA becomes powerful in learning
location-dependent yet view-invariant features with good scalability towards
unseen images of new locations. Compared to the state-of-the-art methods, the
proposed PVDA requires less inference time but has achieved superior
performance on the University-1652 dataset.
- Abstract(参考訳): 無人航空機(UAV)の視覚的ジオローカライゼーションは、異なるビュー、すなわちUAVビューと衛星ビューから取得した同じ地理的ターゲットの画像とマッチングすることを目的としている。
UAV-サテライト画像対の出現差が大きいため、非常に困難である。
以前の作業では、UAVと衛星が撮影した画像を共有特徴空間にマッピングし、UAVビューと衛星ビューの全体的な分布シフトを無視しながら、位置依存の特徴を学習するための分類フレームワークを使用していた。
本稿では,2つのビューの分布アライメントを導入して,共通空間における距離を短くすることで,これらの制約に対処する。
具体的には,PVDA(Progressive View Distribution Alignment)と呼ばれるエンドツーエンドネットワークを提案する。
トレーニング中、特徴エンコーダ、位置分類器、ビュー識別器は、新しいプログレッシブな対角学習戦略によって共同最適化される。
特徴エンコーダとビュー識別器の競合により、両者はより強くなる。
uav-view画像が衛星画像と区別がつかないまで、adversarial learningは徐々に強調される。
その結果、PVDAは位置に依存しないビュー不変な特徴を学習する上で強力となり、新しい位置の未確認画像に対するスケーラビリティが向上した。
最先端の手法と比較して、提案したPVDAは推論時間が少ないが、University-1652データセットでは優れた性能を実現している。
関連論文リスト
- A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-01-03T06:58:52Z) - C-BEV: Contrastive Bird's Eye View Training for Cross-View Image
Retrieval and 3-DoF Pose Estimation [27.870926763424848]
本稿では,ベクトルを埋め込み表現としてではなく,鳥眼ビュー(BEV)マップを用いた新しい学習可能な検索アーキテクチャを提案する。
我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端のタスクを大きなマージンで超えている。
論文 参考訳(メタデータ) (2023-12-13T11:14:57Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - Orientation-Guided Contrastive Learning for UAV-View Geo-Localisation [0.0]
UAVビューのジオローカライゼーションのための指向性誘導型トレーニングフレームワークを提案する。
我々は、この予測がトレーニングをサポートし、以前のアプローチより優れていることを実験的に実証した。
我々は,University-1652とUniversity-160kの2つのデータセットについて,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-02T07:32:32Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - CROVIA: Seeing Drone Scenes from Car Perspective via Cross-View
Adaptation [20.476683921252867]
道路車両の視界から得られた知識をUAVの視界に適応させる新しいCROVIA(Cross-View Adaptation)アプローチを提案する。
まず、ビュー間の幾何学的相関に基づいて、クロスビュー適応に対する新しい幾何学的制約を導入する。
第2に、画像空間からのクロスビュー相関を、ペアオンロードとUAVのビューデータを必要としないセグメンテーション空間に効果的に転送する。
論文 参考訳(メタデータ) (2023-04-14T15:20:40Z) - SatMAE: Pre-training Transformers for Temporal and Multi-Spectral
Satellite Imagery [74.82821342249039]
Masked Autoencoder(MAE)に基づく時間・マルチスペクトル衛星画像の事前学習フレームワークであるSatMAEについて述べる。
時間的情報を活用するために、時間にわたって画像パッチを個別にマスキングする時間的埋め込みを含む。
論文 参考訳(メタデータ) (2022-07-17T01:35:29Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。