論文の概要: A Transformer-Based Feature Segmentation and Region Alignment Method For
UAV-View Geo-Localization
- arxiv url: http://arxiv.org/abs/2201.09206v1
- Date: Sun, 23 Jan 2022 08:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 13:44:18.616545
- Title: A Transformer-Based Feature Segmentation and Region Alignment Method For
UAV-View Geo-Localization
- Title(参考訳): uav-viewジオローカライズのためのトランスベース特徴セグメンテーションと領域アライメント法
- Authors: Ming Dai and Jianhong Hu and Jiedong Zhuang and Enhui Zheng
- Abstract要約: クロスビュージオローカライゼーションは、異なるビューから同じ地理的イメージをマッチングするタスクである。
既存の手法は主により詳細な情報を掘り下げることを目的としている。
本稿では,FSRA(Feature and Region Alignment)と呼ばれる簡易かつ効率的なトランスフォーマーベース構造を導入し,文脈情報を理解する能力を向上させる。
- 参考スコア(独自算出の注目度): 0.5257115841810257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-view geo-localization is a task of matching the same geographic image
from different views, e.g., unmanned aerial vehicle (UAV) and satellite. The
most difficult challenges are the position shift and the uncertainty of
distance and scale. Existing methods are mainly aimed at digging for more
comprehensive fine-grained information. However, it underestimates the
importance of extracting robust feature representation and the impact of
feature alignment. The CNN-based methods have achieved great success in
cross-view geo-localization. However it still has some limitations, e.g., it
can only extract part of the information in the neighborhood and some scale
reduction operations will make some fine-grained information lost. In
particular, we introduce a simple and efficient transformer-based structure
called Feature Segmentation and Region Alignment (FSRA) to enhance the model's
ability to understand contextual information as well as to understand the
distribution of instances. Without using additional supervisory information,
FSRA divides regions based on the heat distribution of the transformer's
feature map, and then aligns multiple specific regions in different views one
on one. Finally, FSRA integrates each region into a set of feature
representations. The difference is that FSRA does not divide regions manually,
but automatically based on the heat distribution of the feature map. So that
specific instances can still be divided and aligned when there are significant
shifts and scale changes in the image. In addition, a multiple sampling
strategy is proposed to overcome the disparity in the number of satellite
images and that of images from other sources. Experiments show that the
proposed method has superior performance and achieves the state-of-the-art in
both tasks of drone view target localization and drone navigation. Code will be
released at https://github.com/Dmmm1997/FSRA
- Abstract(参考訳): クロスビュージオローカライズ(cross-view geo-localization)は、異なる視点からの同じ地理的イメージ、例えば無人航空機(uav)や衛星とマッチングするタスクである。
最も難しい課題は、位置シフトと距離とスケールの不確実性である。
既存の手法は主により詳細な情報を掘り下げることを目的としている。
しかし、ロバストな特徴表現と特徴アライメントの影響を抽出することの重要性を過小評価している。
CNNベースの手法は、クロスビューなジオローカライゼーションにおいて大きな成功を収めた。
しかし、いくつかの制限があり、例えば、近隣の情報の一部を抽出できるだけであり、ある程度のスケール縮小操作によって細かい情報が失われる。
特に,FSRA(Feature Segmentation and Region Alignment)と呼ばれる簡易かつ効率的なトランスフォーマベース構造を導入し,コンテキスト情報やインスタンスの分布を理解する能力を向上させる。
FSRAは、追加の監視情報を用いることなく、トランスフォーマーの特徴マップの熱分布に基づいて領域を分割し、異なるビューで複数の特定領域を1つずつアライメントする。
最後に、FSRAは各リージョンを特徴表現のセットに統合する。
FSRAは、手動で領域を分割するのではなく、特徴写像の熱分布に基づいて自動的に分割する。
そのため、イメージに大きなシフトやスケール変更があった場合、特定のインスタンスを分割してアライメントすることができる。
また,衛星画像数と他のソースからの画像の差を克服するために,複数のサンプリング戦略を提案する。
実験により,提案手法は性能が優れ,目標位置推定とドローンナビゲーションの両タスクにおいて最先端の達成が期待できることがわかった。
コードはhttps://github.com/Dmmm1997/FSRAでリリースされる。
関連論文リスト
- SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization [27.131867916908156]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じターゲットの画像にマッチすることを目的としている。
本稿では,パートベース表現学習,シフト・デンス分割学習を紹介する。
SDPLは位置ずれに対して頑健であり、2つの一般的なベンチマークで反復的に動作することを示す。
論文 参考訳(メタデータ) (2024-03-07T03:07:54Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-01-03T06:58:52Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - SLAN: Self-Locator Aided Network for Cross-Modal Understanding [89.20623874655352]
モーダル理解タスクのための自己ローカレータ支援ネットワーク(SLAN)を提案する。
SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタから構成される。
5つのクロスモーダル理解タスクにおいて、かなり競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T11:42:23Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。