論文の概要: Robust Cross-View Geo-Localization via Content-Viewpoint Disentanglement
- arxiv url: http://arxiv.org/abs/2505.11822v1
- Date: Sat, 17 May 2025 04:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.871989
- Title: Robust Cross-View Geo-Localization via Content-Viewpoint Disentanglement
- Title(参考訳): コンテンツ視点の歪みによるロバストなクロスビュージオローカライゼーション
- Authors: Ke Li, Di Wang, Xiaowei Wang, Zhihong Wu, Yiming Zhang, Yifeng Wang, Quan Wang,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は、ドローンや衛星など、さまざまな視点から捉えた同じ地理的位置の画像をマッチングすることを目的としている。
CVGLは、視線の変化による顕著な外観変化と空間歪みのため、非常に困難である。
我々は、$textitcontent$と$textitviewpoint$ Factorを明示的に分離する新しいCVGLフレームワークである$textbfCVD$を提案する。
- 参考スコア(独自算出の注目度): 21.192114177279695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL) aims to match images of the same geographic location captured from different perspectives, such as drones and satellites. Despite recent advances, CVGL remains highly challenging due to significant appearance changes and spatial distortions caused by viewpoint variations. Existing methods typically assume that cross-view images can be directly aligned within a shared feature space by maximizing feature similarity through contrastive learning. Nonetheless, this assumption overlooks the inherent conflicts induced by viewpoint discrepancies, resulting in extracted features containing inconsistent information that hinders precise localization. In this study, we take a manifold learning perspective and model the feature space of cross-view images as a composite manifold jointly governed by content and viewpoint information. Building upon this insight, we propose $\textbf{CVD}$, a new CVGL framework that explicitly disentangles $\textit{content}$ and $\textit{viewpoint}$ factors. To promote effective disentanglement, we introduce two constraints: $\textit{(i)}$ An intra-view independence constraint, which encourages statistical independence between the two factors by minimizing their mutual information. $\textit{(ii)}$ An inter-view reconstruction constraint that reconstructs each view by cross-combining $\textit{content}$ and $\textit{viewpoint}$ from paired images, ensuring factor-specific semantics are preserved. As a plug-and-play module, CVD can be seamlessly integrated into existing geo-localization pipelines. Extensive experiments on four benchmarks, i.e., University-1652, SUES-200, CVUSA, and CVACT, demonstrate that CVD consistently improves both localization accuracy and generalization across multiple baselines.
- Abstract(参考訳): クロスビュージオローカライゼーション(CVGL)は、ドローンや衛星など、さまざまな視点から捉えた同じ地理的位置の画像をマッチングすることを目的としている。
近年の進歩にもかかわらず、CVGLは視線の変化による外見の変化や空間歪みにより、非常に困難である。
既存の手法では、対照的な学習を通じて特徴の類似性を最大化することにより、クロスビュー画像を共有特徴空間内で直接整列させることができると仮定する。
にもかかわらず、この仮定は、視点の相違によって引き起こされる固有の矛盾を見落とし、正確な局所化を妨げる一貫性のない情報を含む特徴を抽出する。
本研究では, 図形学習の視点を取り入れ, コンテントと視点情報による複合多様体として, クロスビュー画像の特徴空間をモデル化する。
この知見に基づいて、$\textit{content}$と$\textit{viewpoint}$ Factorを明示的に分離する新しいCVGLフレームワークである$\textbf{CVD}$を提案する。
効果的なアンタングル化を促進するために、以下の2つの制約を導入します。
i)$ ビュー内独立制約。相互情報の最小化による2つの要因間の統計的独立を促進する。
$\textit{
(ii)}$ ペアイメージから$\textit{content}$と$\textit{viewpoint}$を相互結合することで、各ビューを再構築するビュー間再構築制約。
プラグアンドプレイモジュールとして、CVDは既存のジオローカライゼーションパイプラインにシームレスに統合できる。
4つのベンチマーク(University-1652, SUES-200, CVUSA, CVACT)の大規模な実験により、CVDは複数のベースラインにわたる局所化精度と一般化の両方を一貫して改善することを示した。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization [28.941724648519102]
本稿では,大規模クロスビュー・ジオローカライゼーション(CVGL)におけるラベルなしデータの有効利用について検討する。
CVGLの一般的なアプローチは、地上衛星画像ペアに依存し、ラベル駆動型教師付きトレーニングを採用する。
本稿では,初期擬似ラベルを検索するためのモデルを案内するクロスビュープロジェクションを含む教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T07:48:35Z) - SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization [27.131867916908156]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じターゲットの画像にマッチすることを目的としている。
本稿では,パートベース表現学習,シフト・デンス分割学習を紹介する。
SDPLは位置ずれに対して頑健であり、2つの一般的なベンチマークで反復的に動作することを示す。
論文 参考訳(メタデータ) (2024-03-07T03:07:54Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Cross-view Geo-localization via Learning Disentangled Geometric Layout
Correspondence [11.823147814005411]
クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。
最近の研究は、クロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。
しかし、既存の手法は依然としてクロスエリアベンチマークのパフォーマンスの低下に悩まされている。
論文 参考訳(メタデータ) (2022-12-08T04:54:01Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。