論文の概要: Mutual Generative Transformer Learning for Cross-view Geo-localization
- arxiv url: http://arxiv.org/abs/2203.09135v1
- Date: Thu, 17 Mar 2022 07:29:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:39:11.555133
- Title: Mutual Generative Transformer Learning for Cross-view Geo-localization
- Title(参考訳): クロスビュージオローカライゼーションのための相互生成変換器学習
- Authors: Jianwei Zhao and Qiang Zhai and Rui Huang and Hong Cheng
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
相互生成型トランスフォーマー学習(MGTL)を併用したクロスモーダルな知識生成手法を用いた新しい手法を提案する。
MGTLは、地上レベルの意味情報から航空的な知識を生成するための2つの別個の生成モジュールを開発し、その逆もまたアテンション機構を通じて相互の利益を十分に活用する。
- 参考スコア(独自算出の注目度): 13.600356183294291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL), which aims to estimate the geographical
location of the ground-level camera by matching against enormous geo-tagged
aerial (e.g., satellite) images, remains extremely challenging due to the
drastic appearance differences across views. Existing methods mainly employ
Siamese-like CNNs to extract global descriptors without examining the mutual
benefits between the two modes. In this paper, we present a novel approach
using cross-modal knowledge generative tactics in combination with transformer,
namely mutual generative transformer learning (MGTL), for CVGL. Specifically,
MGTL develops two separate generative modules--one for aerial-like knowledge
generation from ground-level semantic information and vice versa--and fully
exploits their mutual benefits through the attention mechanism. Experiments on
challenging public benchmarks, CVACT and CVUSA, demonstrate the effectiveness
of the proposed method compared to the existing state-of-the-art models.
- Abstract(参考訳): 地上カメラの地理的位置を、巨大なジオタグ付き空中画像(衛星画像など)と照合して推定することを目的としたクロスビュージオローカライゼーション(CVGL)は、視界の相違により非常に困難である。
既存の手法は主にシームズ様のCNNを用いて、二つのモード間の相互利益を調べることなくグローバルな記述子を抽出する。
本稿では,CVGLにおける相互生成型トランスフォーマー学習(MGTL)と相まって,クロスモーダルな知識生成手法を用いた新しい手法を提案する。
特にmgtlは、地上レベルの意味情報から空中的な知識を生成するための2つの異なる生成モジュールを開発し、その相互利益を注意機構を通じて完全に活用している。
CVACTとCVUSAの挑戦的な公開ベンチマーク実験は、既存の最先端モデルと比較して提案手法の有効性を実証している。
関連論文リスト
- Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization [2.733505168507872]
UAV-View Geo-Localizationは、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。
既存の手法は、トレーニングのためにアノテーション付きペアデータを必要とする教師付き学習パラダイムに依存している。
本稿では,UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークであるDynamic Memory-Driven and Neighborhood Information Learning Networkを提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。
既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。
衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:22:39Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting [70.66710698485745]
本稿では,AHSTN(Adaptive Hierarchical SpatioTemporal Network)を提案する。
AHSTNは空間階層を利用し、マルチスケール空間相関をモデル化する。
2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T14:50:27Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - Activation Regression for Continuous Domain Generalization with
Applications to Crop Classification [48.795866501365694]
衛星画像の地理的変異は、機械学習モデルが新しい領域に一般化する能力に影響を与える。
中分解能ランドサット8衛星画像の地理的一般化を連続領域適応問題としてモデル化する。
我々は,アメリカ大陸全域に空間分布するデータセットを開発した。
論文 参考訳(メタデータ) (2022-04-14T15:41:39Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。