論文の概要: VAGeo: View-specific Attention for Cross-View Object Geo-Localization
- arxiv url: http://arxiv.org/abs/2501.07194v1
- Date: Mon, 13 Jan 2025 10:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:14.588615
- Title: VAGeo: View-specific Attention for Cross-View Object Geo-Localization
- Title(参考訳): VAGeo: クロスビューオブジェクトジオローカライゼーションのためのビュー固有の注意
- Authors: Zhongyang Li, Xin Yuan, Wei Liu, Xin Xu,
- Abstract要約: クロスビューオブジェクトジオローカライゼーション(CVOGL)は、衛星画像内の捕獲された地上画像やドローン画像への関心の対象を見つけることを目的としている。
本稿では,正確なCVOGLのためのビュー固有アテンションジオローカライズ手法(VAGeo)を提案する。
- 参考スコア(独自算出の注目度): 19.4845592498138
- License:
- Abstract: Cross-view object geo-localization (CVOGL) aims to locate an object of interest in a captured ground- or drone-view image within the satellite image. However, existing works treat ground-view and drone-view query images equivalently, overlooking their inherent viewpoint discrepancies and the spatial correlation between the query image and the satellite-view reference image. To this end, this paper proposes a novel View-specific Attention Geo-localization method (VAGeo) for accurate CVOGL. Specifically, VAGeo contains two key modules: view-specific positional encoding (VSPE) module and channel-spatial hybrid attention (CSHA) module. In object-level, according to the characteristics of different viewpoints of ground and drone query images, viewpoint-specific positional codings are designed to more accurately identify the click-point object of the query image in the VSPE module. In feature-level, a hybrid attention in the CSHA module is introduced by combining channel attention and spatial attention mechanisms simultaneously for learning discriminative features. Extensive experimental results demonstrate that the proposed VAGeo gains a significant performance improvement, i.e., improving acc@0.25/acc@0.5 on the CVOGL dataset from 45.43%/42.24% to 48.21%/45.22% for ground-view, and from 61.97%/57.66% to 66.19%/61.87% for drone-view.
- Abstract(参考訳): クロスビューオブジェクトジオローカライゼーション(CVOGL)は、衛星画像内の捕獲された地上画像やドローン画像への関心の対象を見つけることを目的としている。
しかし、既存の研究は、地上視とドローン視のクエリ画像とを同等に扱い、それら固有の視点の相違や、クエリ画像と衛星視の参照画像との空間的相関を見越す。
そこで本研究では,正確なCVOGLのためのビュー固有アテンションジオローカライズ手法(VAGeo)を提案する。
具体的には、VSPE(View-specific positional encoding)モジュールとCSHA(Channel-spatial hybrid attention)モジュールの2つの重要なモジュールが含まれている。
オブジェクトレベルでは、地上およびドローンの問合せ画像の異なる視点の特徴により、VSPEモジュール内の問合せ画像のクリックポイントオブジェクトをより正確に識別するように、視点特異的な位置符号化が設計されている。
CSHAモジュールにおけるハイブリットアテンションは、チャネルアテンションと空間アテンション機構を同時に組み合わせて、識別的特徴を学習することで実現される。
大規模な実験結果から、提案されたVAGeoは、CVOGLデータセットのacc@0.25/acc@0.5を45.43%/42.24%から48.21%/45.22%に改善し、ドローンビューでは61.97%/57.66%から66.19%/61.87%に改善したことが示されている。
関連論文リスト
- Style Alignment based Dynamic Observation Method for UAV-View Geo-localization [7.185123213523453]
UAVビューのジオローカライゼーションのためのスタイルアライメントに基づく動的観察法を提案する。
具体的には、ドローンビュー画像の多様な視覚スタイルから衛星画像の統一的な視覚スタイルへ変換するスタイルアライメント戦略を導入する。
動的観察モジュールは、人間の観察習慣を模倣して画像の空間分布を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-03T06:19:42Z) - Open-Vocabulary Object Detection via Scene Graph Discovery [53.27673119360868]
オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。
OV検出にシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。
論文 参考訳(メタデータ) (2023-07-07T00:46:19Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - CVLNet: Cross-View Semantic Correspondence Learning for Video-based
Camera Localization [89.69214577915959]
本稿では,クロスビューカメラのローカライゼーション問題に対処する。
本稿では、類似性マッチングの前に、問合せカメラの衛星画像に対する相対変位を推定する。
実験は、単一の画像に基づく位置決めよりもビデオベースの位置決めの有効性を実証した。
論文 参考訳(メタデータ) (2022-08-07T07:35:17Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。