論文の概要: A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization
- arxiv url: http://arxiv.org/abs/2401.01574v1
- Date: Wed, 3 Jan 2024 06:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:59:18.763336
- Title: A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization
- Title(参考訳): UAVビジュアルジオローカライゼーションのためのトランスフォーマに基づく適応的セマンティックアグリゲーション法
- Authors: Shishen Li, Cuiwei Liu, Huaijun Qiu and Zhaokui Li
- Abstract要約: 本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
- 参考スコア(独自算出の注目度): 2.1462492411694756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the task of Unmanned Aerial Vehicles (UAV) visual
geo-localization, which aims to match images of the same geographic target
taken by different platforms, i.e., UAVs and satellites. In general, the key to
achieving accurate UAV-satellite image matching lies in extracting visual
features that are robust against viewpoint changes, scale variations, and
rotations. Current works have shown that part matching is crucial for UAV
visual geo-localization since part-level representations can capture image
details and help to understand the semantic information of scenes. However, the
importance of preserving semantic characteristics in part-level representations
is not well discussed. In this paper, we introduce a transformer-based adaptive
semantic aggregation method that regards parts as the most representative
semantics in an image. Correlations of image patches to different parts are
learned in terms of the transformer's feature map. Then our method decomposes
part-level features into an adaptive sum of all patch features. By doing this,
the learned parts are encouraged to focus on patches with typical semantics.
Extensive experiments on the University-1652 dataset have shown the superiority
of our method over the current works.
- Abstract(参考訳): 本稿では、異なるプラットフォーム、すなわちuavや衛星で撮影された同じ地理的ターゲットの画像とマッチングすることを目的とした、無人航空機(uav)のビジュアルジオローカライズに関する課題について述べる。
一般に、正確なUAV-サテライト画像マッチングを実現する鍵は、視点の変化、スケールのバリエーション、回転に対して堅牢な視覚特徴を抽出することにある。
現在の研究では、部分レベルの表現が画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、部分マッチングがUAV視覚的ジオローカライズに不可欠であることが示されている。
しかし,部分表現における意味的特徴の保存の重要性については議論されていない。
本稿では,画像の最も代表的な意味論として部品を考慮したトランスフォーマーに基づく適応的セマンティックアグリゲーション手法を提案する。
画像パッチと異なる部分との相関は、変換器の特徴写像を用いて学習する。
次に,全パッチ機能の適応和に部分レベルの特徴を分解する。
これを行うことで、学習した部分は典型的なセマンティクスによるパッチに集中することが奨励される。
university-1652データセットに関する広範な実験では、現在の研究よりも優れた方法が示されている。
関連論文リスト
- SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization [27.131867916908156]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じターゲットの画像にマッチすることを目的としている。
本稿では,パートベース表現学習,シフト・デンス分割学習を紹介する。
SDPLは位置ずれに対して頑健であり、2つの一般的なベンチマークで反復的に動作することを示す。
論文 参考訳(メタデータ) (2024-03-07T03:07:54Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - A Transformer-Based Feature Segmentation and Region Alignment Method For
UAV-View Geo-Localization [0.5257115841810257]
クロスビュージオローカライゼーションは、異なるビューから同じ地理的イメージをマッチングするタスクである。
既存の手法は主により詳細な情報を掘り下げることを目的としている。
本稿では,FSRA(Feature and Region Alignment)と呼ばれる簡易かつ効率的なトランスフォーマーベース構造を導入し,文脈情報を理解する能力を向上させる。
論文 参考訳(メタデータ) (2022-01-23T08:01:42Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。