論文の概要: Enhancing Cross-View Geo-Localization Generalization via Global-Local Consistency and Geometric Equivariance
- arxiv url: http://arxiv.org/abs/2509.20684v1
- Date: Thu, 25 Sep 2025 02:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.666452
- Title: Enhancing Cross-View Geo-Localization Generalization via Global-Local Consistency and Geometric Equivariance
- Title(参考訳): グローバル・ローカル・一貫性と幾何学的等分散によるクロスビュージオローカライゼーションの一般化の促進
- Authors: Xiaowei Wang, Di Wang, Ke Li, Yifeng Wang, Chengjian Wang, Libin Sun, Zhihong Wu, Yiming Zhang, Quan Wang,
- Abstract要約: クロスビューなジオローカライゼーションは、大きく異なる視点から捉えた同じ位置の画像をマッチングすることを目的としている。
クロスドメインの一般化を促進するための新しいCVGLフレームワークであるEGSを提案する。
EGSは一貫して大幅なパフォーマンス向上を実現し、クロスドメインCVGLにおける新しい最先端技術を確立している。
- 参考スコア(独自算出の注目度): 20.376805098370067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL) aims to match images of the same location captured from drastically different viewpoints. Despite recent progress, existing methods still face two key challenges: (1) achieving robustness under severe appearance variations induced by diverse UAV orientations and fields of view, which hinders cross-domain generalization, and (2) establishing reliable correspondences that capture both global scene-level semantics and fine-grained local details. In this paper, we propose EGS, a novel CVGL framework designed to enhance cross-domain generalization. Specifically, we introduce an E(2)-Steerable CNN encoder to extract stable and reliable features under rotation and viewpoint shifts. Furthermore, we construct a graph with a virtual super-node that connects to all local nodes, enabling global semantics to be aggregated and redistributed to local regions, thereby enforcing global-local consistency. Extensive experiments on the University-1652 and SUES-200 benchmarks demonstrate that EGS consistently achieves substantial performance gains and establishes a new state of the art in cross-domain CVGL.
- Abstract(参考訳): クロスビュージオローカライゼーション(CVGL)は、異なる視点から捉えた同じ位置の画像をマッチングすることを目的としている。
近年の進歩にもかかわらず,既存の手法では,(1)多種多様なUAV配向と領域間一般化を妨げる視野によって引き起こされる厳密な外観変化の下で堅牢性を達成すること,(2)グローバルなシーンレベルのセマンティクスときめ細かな局部的詳細の両方を捉える信頼性の高い対応性を確立すること,の2つの課題に直面している。
本稿では,クロスドメインの一般化を促進するための新しいCVGLフレームワークであるESSを提案する。
具体的には、回転および視点シフトの下で安定かつ信頼性の高い特徴を抽出するE(2)ステアブルCNNエンコーダを提案する。
さらに,すべてのローカルノードに接続する仮想スーパーノードを用いたグラフを構築し,グローバルなセマンティクスを集約してローカルリージョンに再配布することで,グローバルなローカルな一貫性を実現する。
University-1652とSUES-200ベンチマークの大規模な実験は、ESGが一貫して性能向上を達成し、クロスドメインCVGLにおける新たな最先端技術を確立することを示した。
関連論文リスト
- GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [67.47128781638291]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - A Unified Hierarchical Framework for Fine-grained Cross-view Geo-localization over Large-scale Scenarios [43.8734658237949]
クロスビューなジオローカライゼーションは大規模ローカライゼーション問題に対する有望な解決策である。
本稿では,新しい階層的ジオローカライゼーションフレームワークUnifyGeoを提案する。
タスク分離設定とタスク関連設定の両方において、UnifyGeoは最先端の処理性能を大きく上回ることを示す。
論文 参考訳(メタデータ) (2025-05-12T14:44:31Z) - EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation [50.433911327489554]
制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-04-28T02:41:12Z) - CV-Cities: Advancing Cross-View Geo-Localization in Global Cities [3.074201632920997]
クロスビュージオローカライゼーション(CVGL)は、地上画像の地理的位置を決定するために衛星画像のマッチングと検索を行う。
この課題は, 視点の相違, 局所化シナリオの複雑化, グローバルなローカライゼーションの必要性など, 重大な課題に直面している。
本稿では,基本モデルであるDINOv2と高度な機能ミキサーを統合した新しいCVGLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T11:41:22Z) - Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。