論文の概要: GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
- arxiv url: http://arxiv.org/abs/2507.10935v1
- Date: Tue, 15 Jul 2025 03:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.96249
- Title: GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
- Title(参考訳): GeoDistill: 弱教師付きクロスビューローカライゼーションのための幾何学誘導型自己蒸留
- Authors: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi,
- Abstract要約: クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。
既存の手法は、しばしば完全に教師付き学習に依存している。
本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
- 参考スコア(独自算出の注目度): 70.65458151146767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view localization, the task of estimating a camera's 3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with satellite images, is crucial for large-scale outdoor applications like autonomous navigation and augmented reality. Existing methods often rely on fully supervised learning, which requires costly ground-truth pose annotations. In this work, we propose GeoDistill, a Geometry guided weakly supervised self distillation framework that uses teacher-student learning with Field-of-View (FoV)-based masking to enhance local feature learning for robust cross-view localization. In GeoDistill, the teacher model localizes a panoramic image, while the student model predicts locations from a limited FoV counterpart created by FoV-based masking. By aligning the student's predictions with those of the teacher, the student focuses on key features like lane lines and ignores textureless regions, such as roads. This results in more accurate predictions and reduced uncertainty, regardless of whether the query images are panoramas or limited FoV images. Our experiments show that GeoDistill significantly improves localization performance across different frameworks. Additionally, we introduce a novel orientation estimation network that predicts relative orientation without requiring precise planar position ground truth. GeoDistill provides a scalable and efficient solution for real-world cross-view localization challenges. Code and model can be found at https://github.com/tongshw/GeoDistill.
- Abstract(参考訳): カメラの3度自由度(3-DoF)を推定するクロスビューローカライゼーションは、地上レベルの画像を衛星画像と整列させることで、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションに不可欠である。
既存の手法は、しばしば完全に教師付き学習に依存している。
本研究では,FoV(Field-of-View)ベースのマスキングによる教師学生学習を用いて,ロバストなクロスビューローカライゼーションのための局所的特徴学習を強化する,幾何学的指導力の弱い自己蒸留フレームワークであるGeoDistillを提案する。
GeoDistillでは、教師モデルはパノラマ画像をローカライズし、学生モデルはFoVベースのマスキングによって生成された限られたFoV画像から位置を予測する。
生徒の予測と教師の予測を合わせることで、学生は車線などの重要な特徴に焦点を合わせ、道路などのテクスチャのない地域を無視する。
これにより、クエリイメージがパノラマであるか、限られたFoVイメージであるかに関わらず、より正確な予測と不確実性を低減することができる。
実験の結果,GeoDistillは異なるフレームワーク間のローカライゼーション性能を大幅に改善することがわかった。
さらに,平面位置の正確な真理を必要とせず,相対方向を予測できる新たな配向推定ネットワークを提案する。
GeoDistillは、現実世界のクロスビューローカライゼーションの課題に対して、スケーラブルで効率的なソリューションを提供する。
コードとモデルはhttps://github.com/tongshw/GeoDistill.orgにある。
関連論文リスト
- Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth [56.565405280314884]
本稿では,GTの微細化を伴わないターゲット領域の画像のみを活用することにより,新たなターゲット領域におけるトレーニングモデルの性能向上に焦点をあてる。
本稿では,知識の自己蒸留に基づく弱教師付き学習手法を提案する。
提案手法は,最近の2つのベンチマークモデルを用いて検証した。
論文 参考訳(メタデータ) (2024-06-01T15:58:35Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Learning Cross-Scale Visual Representations for Real-Time Image
Geo-Localization [21.375640354558044]
局所センサに基づく状態推定手法は、誤差が蓄積されるにつれて長距離ミッションがドリフトする傾向にある。
クロススケールなデータセットと、クロスモダリティソースから追加データを生成する手法を紹介する。
本稿では,監督なしに大規模視覚表現を学習するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T08:08:54Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z) - Learning Geocentric Object Pose in Oblique Monocular Images [18.15647135620892]
オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。
我々は,この課題に対処するために,ジオセントリックなポーズの符号化を開発し,この表現を高密度に計算するために深層ネットワークを訓練する。
これらの属性を利用して斜め画像を修正し、観測対象視差を除去し、局所化の精度を劇的に向上させ、非常に異なる斜めの視点から撮影された複数の画像の正確なアライメントを可能にする。
論文 参考訳(メタデータ) (2020-07-01T20:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。