Fugu-MT 論文翻訳(概要): Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

論文の概要: Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

arxiv url: http://arxiv.org/abs/2603.25686v1
Date: Thu, 26 Mar 2026 17:36:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:48.403725
Title: Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming
Title（参考訳）: Just Zoom In: 自動回帰ズームによるクロスビュージオローカライゼーション
Authors: Yunus Talha Erzurumlu, Jiyong Kwag, Alper Yilmaz,
Abstract要約: クロスビュージオローカライゼーションは、ストリートビュー画像とジオレファレンスされたオーバーヘッド画像とをマッチングすることにより、カメラの位置を推定する。既存の手法は、対照的に訓練された埋め込み空間における画像検索問題としてCVGLをほぼ普遍的に定式化する。都市規模のオーバヘッドマップ上でオートレズームによりCVGLを実行する代替式であるJust Zoom Inを提案する。
参考スコア（独自算出の注目度）: 4.396860522241306
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-view geo-localization (CVGL) estimates a camera's location by matching a street-view image to geo-referenced overhead imagery, enabling GPS-denied localization and navigation. Existing methods almost universally formulate CVGL as an image-retrieval problem in a contrastively trained embedding space. This ties performance to large batches and hard negative mining, and it ignores both the geometric structure of maps and the coverage mismatch between street-view and overhead imagery. In particular, salient landmarks visible from the street view can fall outside a fixed satellite crop, making retrieval targets ambiguous and limiting explicit spatial inference over the map. We propose Just Zoom In, an alternative formulation that performs CVGL via autoregressive zooming over a city-scale overhead map. Starting from a coarse satellite view, the model takes a short sequence of zoom-in decisions to select a terminal satellite cell at a target resolution, without contrastive losses or hard negative mining. We further introduce a realistic benchmark with crowd-sourced street views and high-resolution satellite imagery that reflects real capture conditions. On this benchmark, Just Zoom In achieves state-of-the-art performance, improving Recall@1 within 50 m by 5.5% and Recall@1 within 100 m by 9.6% over the strongest contrastive-retrieval baseline. These results demonstrate the effectiveness of sequential coarse-to-fine spatial reasoning for cross-view geo-localization.
Abstract（参考訳）: クロスビュージオローカライゼーション(CVGL)は、ストリートビュー画像とジオリファレンスなオーバーヘッド画像とをマッチングすることにより、カメラの位置を推定し、GPSによるローカライゼーションとナビゲーションを可能にする。既存の手法は、対照的に訓練された埋め込み空間における画像検索問題としてCVGLをほぼ普遍的に定式化する。これは大きなバッチと強い負のマイニングに結びつき、地図の幾何学的構造とストリートビューとオーバヘッドイメージの間のカバレッジミスマッチの両方を無視している。特に、ストリートビューから見える有意義なランドマークは、固定された衛星作物の外に落下し、検索対象が曖昧になり、地図上の空間的推測が制限される。都市規模のオーバヘッドマップ上で自己回帰ズームによりCVGLを実行する代替式であるJust Zoom Inを提案する。粗い衛星ビューから始めると、このモデルは短いズームイン決定を行ない、対照的な損失や強い負のマイニングを伴わずに、ターゲット解像度で端末の衛星セルを選択する。さらに,クラウドソースによるストリートビューと,実際の捕捉条件を反映した高解像度衛星画像を用いたリアルなベンチマークを導入する。このベンチマークでは、Just Zoom Inは最先端のパフォーマンスを実現し、50m未満のRecall@1を5.5%、100m未満のRecall@1を9.6%改善した。これらの結果から, 連続的粗い空間的推論がクロスビューなジオローカライゼーションに有効であることを示す。

関連論文リスト

GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via Geometry-Guided Cross-View Transformer [66.82008165644892]
地上レベルの画像と一致/検索衛星画像との相対的な回転と変換を推定することにより、地上カメラの位置と方向の精度を向上させる手法を提案する。実験の結果,本手法は最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-16T11:52:27Z)
Wide-Area Geolocalization with a Limited Field of View Camera [33.34809839268686]
GPSの補足または置換であるクロスビュージオローカライゼーションは、地上カメラから撮影した画像と衛星や航空機から撮影した画像とをマッチングすることにより、検索エリア内のエージェントをローカライズする。 ReWAGは、オドメトリーと90度のFOVカメラだけで、GPSを付加した環境で、移動体エージェントをグローバルにローカライズできるニューラルネットワークとパーティクルフィルタシステムである。
論文参考訳（メタデータ） (2022-09-23T20:59:26Z)
Visual Cross-View Metric Localization with Dense Uncertainty Estimates [11.76638109321532]
本研究は、屋外ロボティクスにおける視覚的クロスビューメトリックローカライゼーションに対処する。地上レベルのカラー画像と局地的な環境を含む衛星パッチが与えられた場合、衛星パッチ内の地上カメラの位置を特定することが課題である。我々は、より高密度な衛星記述子、ボトルネックにおける類似性マッチング、およびマルチモーダルなローカライゼーションの曖昧さを捉えるための出力としての密度空間分布を備えた新しいネットワークアーキテクチャを考案した。
論文参考訳（メタデータ） (2022-08-17T20:12:23Z)
Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文参考訳（メタデータ） (2022-04-10T19:16:58Z)
Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文参考訳（メタデータ） (2022-03-26T20:10:38Z)
City-wide Street-to-Satellite Image Geolocalization of a Mobile Ground Agent [38.140216125792755]
クロスビュー画像のジオローカライゼーションは、GPSを必要とせずに、局地画像とオーバーヘッド衛星画像とをマッチングすることにより、エージェントのグローバルな位置を推定する。我々のアプローチはワイド・エリア・ジオローカライゼーション (WAG) と呼ばれ、ニューラルネットワークと粒子フィルタを組み合わせることで、GPSを付加した環境で移動するエージェントのグローバルな位置推定を実現している。 WAGは、20mの順序で位置推定精度を達成し、ベースライントレーニングと重み付けのアプローチと比較して98%の削減を実現した。
論文参考訳（メタデータ） (2022-03-10T19:54:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。