論文の概要: SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization
- arxiv url: http://arxiv.org/abs/2603.09377v1
- Date: Tue, 10 Mar 2026 08:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.177934
- Title: SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization
- Title(参考訳): SinGeo: 単一モデルのロバストなクロスビュージオローカライゼーションの可能性
- Authors: Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu,
- Abstract要約: SinGeoはシンプルだが強力なフレームワークであり、単一のモデルで堅牢なクロスビューなジオローカライゼーションを実現することができる。
SinGeoは、地上と衛星の両方のブランチにおけるビュー内識別性を向上する二重識別学習アーキテクチャを採用している。
- 参考スコア(独自算出の注目度): 25.563713122044337
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robust cross-view geo-localization (CVGL) remains challenging despite the surge in recent progress. Existing methods still rely on field-of-view (FoV)-specific training paradigms, where models are optimized under a fixed FoV but collapse when tested on unseen FoVs and unknown orientations. This limitation necessitates deploying multiple models to cover diverse variations. Although studies have explored dynamic FoV training by simply randomizing FoVs, they failed to achieve robustness across diverse conditions -- implicitly assuming all FoVs are equally difficult. To address this gap, we present SinGeo, a simple yet powerful framework that enables a single model to realize robust cross-view geo-localization without additional modules or explicit transformations. SinGeo employs a dual discriminative learning architecture that enhances intra-view discriminability within both ground and satellite branches, and is the first to introduce a curriculum learning strategy to achieve robust CVGL. Extensive evaluations on four benchmark datasets reveal that SinGeo sets state-of-the-art (SOTA) results under diverse conditions, and notably outperforms methods specifically trained for extreme FoVs. Beyond superior performance, SinGeo also exhibits cross-architecture transferability. Furthermore, we propose a consistency evaluation method to quantitatively assess model stability under varying views, providing an explainable perspective for understanding and advancing robustness in future CVGL research. Codes will be available upon acceptance.
- Abstract(参考訳): 近年の進歩にもかかわらず、ロバスト・クロスビュー・ジオローカライゼーション (CVGL) はいまだに困難である。
既存の手法はまだフィールド・オブ・ビュー(FoV)固有の訓練パラダイムに依存しており、モデルは固定されたFoVの下で最適化されるが、未知のFoVや未知のオリエンテーションでテストすると崩壊する。
この制限は、様々なバリエーションをカバーするために複数のモデルをデプロイする必要がある。
研究は単純にFoVをランダム化することで動的FoVトレーニングを探求しているが、すべてのFoVが等しく難しいと暗黙的に仮定して、様々な条件で堅牢性を達成できなかった。
このギャップに対処するため、SinGeoは単純な強力なフレームワークであり、単一のモデルでモジュールの追加や明示的な変換なしに、堅牢なクロスビューなジオローカライゼーションを実現することができる。
SinGeoは、地上と衛星の両方でビュー内識別性を向上する二重識別学習アーキテクチャを採用し、堅牢なCVGLを実現するためのカリキュラム学習戦略を最初に導入した。
4つのベンチマークデータセットの大規模な評価により、SinGeoは様々な条件下で最新技術(SOTA)結果をセットし、特に極端なFoVのために特別に訓練された方法よりも優れていることが判明した。
優れたパフォーマンスに加えて、SinGeoはアーキテクチャ間の転送可能性も示す。
さらに,様々な視点でモデル安定性を定量的に評価する一貫性評価手法を提案し,今後のCVGL研究におけるロバストネスの理解と向上のための説明可能な視点を提供する。
コードは受理後利用可能。
関連論文リスト
- Enhancing Cross-View Geo-Localization Generalization via Global-Local Consistency and Geometric Equivariance [20.376805098370067]
クロスビューなジオローカライゼーションは、大きく異なる視点から捉えた同じ位置の画像をマッチングすることを目的としている。
クロスドメインの一般化を促進するための新しいCVGLフレームワークであるEGSを提案する。
EGSは一貫して大幅なパフォーマンス向上を実現し、クロスドメインCVGLにおける新しい最先端技術を確立している。
論文 参考訳(メタデータ) (2025-09-25T02:35:21Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。
既存の手法は、しばしば完全に教師付き学習に依存している。
本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文 参考訳(メタデータ) (2025-07-15T03:00:15Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - ConGeo: Robust Cross-view Geo-localization across Ground View Variations [34.192775134189965]
クロスビューなジオローカライゼーションは,地上レベルのクエリイメージを対応するジオレファレンスな空中ビューとマッチングすることで,ローカライズすることを目的としている。
既存の学習パイプラインはオリエンテーションに特化しているか、FoVに特化している。
本研究では,地形定位のためのコントラスト法であるConGeoを提案する。
論文 参考訳(メタデータ) (2024-03-20T20:37:13Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。