論文の概要: From Street to Orbit: Training-Free Cross-View Retrieval via Location Semantics and LLM Guidance
- arxiv url: http://arxiv.org/abs/2511.09820v1
- Date: Fri, 14 Nov 2025 01:11:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.506667
- Title: From Street to Orbit: Training-Free Cross-View Retrieval via Location Semantics and LLM Guidance
- Title(参考訳): ストリートから軌道へ:ロケーションセマンティックスとLLMガイダンスによる学習自由なクロスビュー検索
- Authors: Jeongho Min, Dongyoung Kim, Jaehyup Lee,
- Abstract要約: クロスビュー画像検索は、自律ナビゲーション、都市計画、GPSを用いた環境におけるローカライゼーションなどの応用において重要である。
我々は、事前学習された視覚エンコーダと大規模言語モデル(LLM)を利用した、シンプルで効果的なクロスビュー画像検索フレームワークを提案する。
しかし,提案手法は,ゼロショット設定下でのベンチマークデータセットに対する事前学習に基づくアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 10.533095161205358
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view image retrieval, particularly street-to-satellite matching, is a critical task for applications such as autonomous navigation, urban planning, and localization in GPS-denied environments. However, existing approaches often require supervised training on curated datasets and rely on panoramic or UAV-based images, which limits real-world deployment. In this paper, we present a simple yet effective cross-view image retrieval framework that leverages a pretrained vision encoder and a large language model (LLM), requiring no additional training. Given a monocular street-view image, our method extracts geographic cues through web-based image search and LLM-based location inference, generates a satellite query via geocoding API, and retrieves matching tiles using a pretrained vision encoder (e.g., DINOv2) with PCA-based whitening feature refinement. Despite using no ground-truth supervision or finetuning, our proposed method outperforms prior learning-based approaches on the benchmark dataset under zero-shot settings. Moreover, our pipeline enables automatic construction of semantically aligned street-to-satellite datasets, which is offering a scalable and cost-efficient alternative to manual annotation. All source codes will be made publicly available at https://jeonghomin.github.io/street2orbit.github.io/.
- Abstract(参考訳): クロスビュー画像検索、特にストリート・ツー・サテライトマッチングは、自律ナビゲーション、都市計画、GPSを用いた環境におけるローカライゼーションといったアプリケーションにとって重要な課題である。
しかし、既存のアプローチでは、しばしば、キュレートされたデータセットの教師ありトレーニングを必要とし、パノラマまたはUAVベースのイメージに依存し、実際のデプロイメントを制限する。
本稿では,事前学習された視覚エンコーダと大規模言語モデル(LLM)を活用し,追加の訓練を必要としない,シンプルで効果的なクロスビュー画像検索フレームワークを提案する。
単眼のストリートビュー画像が与えられると,Web ベースの画像検索と LLM による位置推定により地理的な手がかりを抽出し,ジオコーディングAPI を用いて衛星クエリを生成し,PCA ベースのホワイトニング機能を備えた事前学習された視覚エンコーダ (例: DINOv2) を用いてマッチングタイルを検索する。
しかし,提案手法は,ゼロショット設定下でのベンチマークデータセットに対する事前学習に基づくアプローチよりも優れていた。
さらに、私たちのパイプラインは、手動アノテーションに代わるスケーラブルでコスト効率のよい、セマンティックに整合したStreet-to-Satelliteデータセットの自動構築を可能にします。
すべてのソースコードはhttps://jeonghomin.github.io/street2orbit.github.io/で公開されます。
関連論文リスト
- Object Detection as an Optional Basis: A Graph Matching Network for Cross-View UAV Localization [17.908597896653045]
本稿では,対象物検出によるマップマッチングを行うUAVローカライゼーションフレームワークを提案する。
典型的なパイプラインでは、UAVの視覚的ローカライゼーションは画像検索の問題として定式化されている。
本手法は, グラフベースノード類似度測定法を用いて, 高精度な検索とローカライズ性能を実現する。
論文 参考訳(メタデータ) (2025-11-04T11:25:31Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。
既存の手法は、しばしば完全に教師付き学習に依存している。
本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文 参考訳(メタデータ) (2025-07-15T03:00:15Z) - Pole-based Vehicle Localization with Vector Maps: A Camera-LiDAR Comparative Study [6.300346102366891]
道路環境では、交通標識、信号機、街灯など多くの一般的な家具がポールの形をしている。
本稿では,自動アノテート画像に基づいて訓練された軽量ニューラルネットワークを用いて,カメラによるポール検出をリアルタイムに行う手法を提案する。
その結果,オープン道路環境における視線に基づくアプローチの精度が向上した。
論文 参考訳(メタデータ) (2024-12-11T09:05:05Z) - OSMLoc: Single Image-Based Visual Localization in OpenStreetMap with Fused Geometric and Semantic Guidance [20.043977909592115]
OSMLocは、OpenStreetMapマップに対するファーストパーソナライズされたイメージに基づく、脳にインスパイアされた視覚的ローカライゼーションアプローチである。
意味的および幾何学的ガイダンスを統合し、精度、堅牢性、一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-11-13T14:59:00Z) - Game4Loc: A UAV Geo-Localization Benchmark from Game Data [0.0]
クロスビューペアデータの部分的マッチングを含む,より実用的なUAV測位タスクを提案する。
実験により,UAV測地のためのデータとトレーニング手法の有効性が示された。
論文 参考訳(メタデータ) (2024-09-25T13:33:28Z) - Weakly-supervised Camera Localization by Ground-to-satellite Image Registration [52.54992898069471]
本稿では,地対衛星画像登録のための弱教師付き学習戦略を提案する。
地上画像ごとに正の衛星画像と負の衛星画像を導き出す。
また,クロスビュー画像の相対回転推定のための自己超越戦略を提案する。
論文 参考訳(メタデータ) (2024-09-10T12:57:16Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。