論文の概要: Cross-view Geo-localization with Evolving Transformer
- arxiv url: http://arxiv.org/abs/2107.00842v2
- Date: Mon, 5 Jul 2021 02:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 10:47:55.509645
- Title: Cross-view Geo-localization with Evolving Transformer
- Title(参考訳): 変圧器を用いたクロスビュージオローカライズ
- Authors: Hongji Yang, Xiufan Lu and Yingying Zhu
- Abstract要約: クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
- 参考スコア(独自算出の注目度): 7.5800316275498645
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we address the problem of cross-view geo-localization, which
estimates the geospatial location of a street view image by matching it with a
database of geo-tagged aerial images. The cross-view matching task is extremely
challenging due to drastic appearance and geometry differences across views.
Unlike existing methods that predominantly fall back on CNN, here we devise a
novel evolving geo-localization Transformer (EgoTR) that utilizes the
properties of self-attention in Transformer to model global dependencies, thus
significantly decreasing visual ambiguities in cross-view geo-localization. We
also exploit the positional encoding of Transformer to help the EgoTR
understand and correspond geometric configurations between ground and aerial
images. Compared to state-of-the-art methods that impose strong assumption on
geometry knowledge, the EgoTR flexibly learns the positional embeddings through
the training objective and hence becomes more practical in many real-world
scenarios. Although Transformer is well suited to our task, its vanilla
self-attention mechanism independently interacts within image patches in each
layer, which overlooks correlations between layers. Instead, this paper propose
a simple yet effective self-cross attention mechanism to improve the quality of
learned representations. The self-cross attention models global dependencies
between adjacent layers, which relates between image patches while modeling how
features evolve in the previous layer. As a result, the proposed self-cross
attention leads to more stable training, improves the generalization ability
and encourages representations to keep evolving as the network goes deeper.
Extensive experiments demonstrate that our EgoTR performs favorably against
state-of-the-art methods on standard, fine-grained and cross-dataset cross-view
geo-localization tasks.
- Abstract(参考訳): 本研究では,道路画像の地理空間的位置をジオタグ付き空中画像のデータベースとマッチングすることにより推定する,クロスビューなジオローカライゼーションの問題に対処する。
クロスビューマッチングタスクは、視界の劇的な外観と幾何学的差異のため、非常に難しい。
そこで本稿では,cnnが主流である既存の手法とは異なり,グローバル依存をモデル化するためにトランスフォーマの自己着脱特性を利用する新しいジオローカライズトランス(egotr)を考案し,クロスビュージオローカライズにおける視覚的あいまいさを著しく低減する。
また,egotrが地上画像と空中画像の幾何学的配置を理解し対応するために,トランスフォーマーの位置符号化を利用する。
幾何学的知識に強い仮定を課す最先端の手法と比較して、egotrはトレーニング目的を通じて柔軟に位置埋め込みを学び、従って多くの実世界のシナリオにおいてより実用的になる。
トランスフォーマーはタスクに適していますが、そのバニラセルフアテンションメカニズムは各レイヤ内のイメージパッチ内で独立して相互作用し、レイヤ間の相関を見落としています。
本稿では,学習表現の品質を向上させるための,単純かつ効果的な自己交叉注意機構を提案する。
セルフクロスアテンション(self-cross attention)は、隣接するレイヤ間のグローバルな依存関係をモデル化する。
その結果、提案した自己横断的注意はより安定したトレーニングをもたらし、一般化能力を改善し、ネットワークが深まるにつれて表現が進化し続けるように促す。
広汎な実験により,我々のEgoTRは,標準的な,きめ細かな,また,クロスデータセットなジオローカライゼーションタスクにおいて,最先端の手法に対して良好に機能することを示した。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - ConGeo: Robust Cross-view Geo-localization across Ground View Variations [34.192775134189965]
クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。
既存の学習パイプラインはオリエンテーションに特化しているか、FoVに特化している。
本研究では,地形定位のためのコントラスト法であるConGeoを提案する。
論文 参考訳(メタデータ) (2024-03-20T20:37:13Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Improving the generalization of network based relative pose regression:
dimension reduction as a regularizer [16.63174637692875]
最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。
エンドツーエンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供する。
本稿では,絶対像特徴値からポーズ回帰解法を分離するために,ネットワーク内に学習可能なマッチング層を明示的に追加する。
我々はこの次元正規化戦略を2層ピラミッドベースのフレームワークで実装し、局所化結果を粗いものから細かいものへと回帰する。
論文 参考訳(メタデータ) (2020-10-24T06:20:46Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。