論文の概要: Co-visual pattern augmented generative transformer learning for
automobile geo-localization
- arxiv url: http://arxiv.org/abs/2203.09135v2
- Date: Thu, 20 Apr 2023 12:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 17:46:30.363874
- Title: Co-visual pattern augmented generative transformer learning for
automobile geo-localization
- Title(参考訳): カージオローカライゼーションのための共視覚パターン拡張生成変換器学習
- Authors: Jianwei Zhao and Qiang Zhai and Pengbo Zhao and Rui Huang and Hong
Cheng
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 12.449657263683337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geolocation is a fundamental component of route planning and navigation for
unmanned vehicles, but GNSS-based geolocation fails under denial-of-service
conditions. Cross-view geo-localization (CVGL), which aims to estimate the
geographical location of the ground-level camera by matching against enormous
geo-tagged aerial (\emph{e.g.}, satellite) images, has received lots of
attention but remains extremely challenging due to the drastic appearance
differences across aerial-ground views. In existing methods, global
representations of different views are extracted primarily using Siamese-like
architectures, but their interactive benefits are seldom taken into account. In
this paper, we present a novel approach using cross-view knowledge generative
techniques in combination with transformers, namely mutual generative
transformer learning (MGTL), for CVGL. Specifically, by taking the initial
representations produced by the backbone network, MGTL develops two separate
generative sub-modules -- one for aerial-aware knowledge generation from
ground-view semantics and vice versa -- and fully exploits the entirely mutual
benefits through the attention mechanism. Moreover, to better capture the
co-visual relationships between aerial and ground views, we introduce a
cascaded attention masking algorithm to further boost accuracy. Extensive
experiments on challenging public benchmarks, \emph{i.e.}, {CVACT} and {CVUSA},
demonstrate the effectiveness of the proposed method which sets new records
compared with the existing state-of-the-art models.
- Abstract(参考訳): ジオロケーションは無人車両のルート計画とナビゲーションの基本的な構成要素であるが、GNSSベースのジオロケーションはサービス停止条件下では失敗する。
地上カメラの地理的位置を、巨大なジオタグ付き空中画像(\emph{e.}, 衛星画像)と照合して推定することを目的としたクロスビュージオローカライゼーション(CVGL)は、多くの注目を集めているが、地上ビュー間の劇的な外観の違いのため、非常に難しい。
既存の手法では、異なるビューのグローバル表現は主にシャムのようなアーキテクチャを用いて抽出されるが、それらのインタラクティブな利点はほとんど考慮されていない。
本稿では,cvglにおける相互生成トランスフォーマー学習(mgtl)という,トランスフォーマと組み合わせたクロスビュー知識生成手法を用いた新しい手法を提案する。
具体的には、backbone networkが生成する最初の表現を取り込むことで、mgtlは2つの異なる生成サブモジュール -- 一つは地上のセマンティクスから航空認識の知識を生成するためのもので、その逆もまた -- を開発し、アテンションメカニズムによって完全に相互に利益を享受する。
さらに,空中と地上の視線関係をよりよく把握するために,より精度を高めるために,カスケードされた注目マスキングアルゴリズムを導入する。
既存の最先端モデルと比較して,新たなレコードを設定する手法の有効性を実証するために, 挑戦的な公開ベンチマークである<emph{i.e.}, {CVACT}, {CVUSA} の広範な実験を行った。
関連論文リスト
- Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。
既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。
衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:22:39Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization [28.941724648519102]
本稿では,大規模クロスビュー・ジオローカライゼーション(CVGL)におけるラベルなしデータの有効利用について検討する。
CVGLの一般的なアプローチは、地上衛星画像ペアに依存し、ラベル駆動型教師付きトレーニングを採用する。
本稿では,初期擬似ラベルを検索するためのモデルを案内するクロスビュープロジェクションを含む教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T07:48:35Z) - Adaptive Hierarchical SpatioTemporal Network for Traffic Forecasting [70.66710698485745]
本稿では,AHSTN(Adaptive Hierarchical SpatioTemporal Network)を提案する。
AHSTNは空間階層を利用し、マルチスケール空間相関をモデル化する。
2つの実世界のデータセットの実験により、AHSTNはいくつかの強いベースラインよりも優れたパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T14:50:27Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - Activation Regression for Continuous Domain Generalization with
Applications to Crop Classification [48.795866501365694]
衛星画像の地理的変異は、機械学習モデルが新しい領域に一般化する能力に影響を与える。
中分解能ランドサット8衛星画像の地理的一般化を連続領域適応問題としてモデル化する。
我々は,アメリカ大陸全域に空間分布するデータセットを開発した。
論文 参考訳(メタデータ) (2022-04-14T15:41:39Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Cross-view Geo-localization with Evolving Transformer [7.5800316275498645]
クロスビューなジオローカライゼーションは、視界の劇的な外観と幾何学的差異のために困難である。
本研究では,Transformerにおける自己アテンションの特性を利用してグローバルな依存関係をモデル化する新しいジオローカライゼーショントランスフォーマー(EgoTR)を提案する。
我々のEgoTRは、標準的な、きめ細かな、そして、クロスデータセットなジオローカライゼーションタスクにおいて、最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-07-02T05:33:14Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。