Fugu-MT 論文翻訳(概要): Cross-View Geo-Localization with Street-View and VHR Satellite Imagery in Decentrality Settings

論文の概要: Cross-View Geo-Localization with Street-View and VHR Satellite Imagery in Decentrality Settings

arxiv url: http://arxiv.org/abs/2412.11529v1
Date: Mon, 16 Dec 2024 08:07:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.259533
Title: Cross-View Geo-Localization with Street-View and VHR Satellite Imagery in Decentrality Settings
Title（参考訳）: 分散環境におけるストリートビューとVHR衛星画像を用いたクロスビュー地球ローカライゼーション
Authors: Panwang Xia, Lei Yu, Yi Wan, Qiong Wu, Peiqi Chen, Liheng Zhong, Yongxiang Yao, Dong Wei, Xinyi Liu, Lixiang Ru, Yingying Zhang, Jiangwei Lao, Jingdong Chen, Ming Yang, Yongjun Zhang,
Abstract要約: Cross-View Geo-Localizationは、ストリートビュークエリ画像とジオタグ付き空中ビュー参照画像とを一致させる。既存のデータセットとメソッドは、しばしば中心的な設定を前提とするか、限定的な分散性しか考慮しない。 CVSatは、地理的に広い範囲で、クロスビューなジオローカライゼーションを評価するために設計された、新しいデータセットである。
参考スコア（独自算出の注目度）: 39.252555758596706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-View Geo-Localization tackles the problem of image geo-localization in GNSS-denied environments by matching street-view query images with geo-tagged aerial-view reference images. However, existing datasets and methods often assume center-aligned settings or only consider limited decentrality (i.e., the offset of the query image from the reference image center). This assumption overlooks the challenges present in real-world applications, where large decentrality can significantly enhance localization efficiency but simultaneously lead to a substantial degradation in localization accuracy. To address this limitation, we introduce CVSat, a novel dataset designed to evaluate cross-view geo-localization with a large geographic scope and diverse landscapes, emphasizing the decentrality issue. Meanwhile, we propose AuxGeo (Auxiliary Enhanced Geo-Localization), which leverages a multi-metric optimization strategy with two novel modules: the Bird's-eye view Intermediary Module (BIM) and the Position Constraint Module (PCM). BIM uses bird's-eye view images derived from street-view panoramas as an intermediary, simplifying the cross-view challenge with decentrality to a cross-view problem and a decentrality problem. PCM leverages position priors between cross-view images to establish multi-grained alignment constraints. These modules improve the performance of cross-view geo-localization with the decentrality problem. Extensive experiments demonstrate that AuxGeo outperforms previous methods on our proposed CVSat dataset, mitigating the issue of large decentrality, and also achieves state-of-the-art performance on existing public datasets such as CVUSA, CVACT, and VIGOR.
Abstract（参考訳）: クロスビュージオローカライゼーションは、ストリートビュークエリ画像とジオタグ付き空中ビュー参照画像とをマッチングすることにより、GNSSによる環境における画像ジオローカライゼーションの課題に対処する。しかし、既存のデータセットやメソッドは、しばしば中心に沿った設定を前提とするか、限られた分散性(つまり、参照イメージセンターからのクエリイメージのオフセット)しか考慮しない。この仮定は、大規模な分散性によってローカライズ効率が著しく向上すると同時に、ローカライズ精度が大幅に低下する現実世界のアプリケーションで発生する課題を見落としている。この制限に対処するため、我々はCVSatを紹介した。CVSatは、広い地理的範囲と多様な景観で、クロスビューなジオローカライゼーションを評価するために設計された新しいデータセットであり、分散性の問題を強調している。一方,AuxGeo (Auxiliary Enhanced Geo-Localization) は,Bird's-eye view Intermediary Module (BIM) と position Constraint Module (PCM) の2つの新しいモジュールを用いたマルチメトリック最適化戦略を利用する。 BIMは、ストリートビューパノラマから派生した鳥眼ビューイメージを仲介として使用し、横断ビュー問題や分散問題への分散による横断ビュー課題を簡素化する。 PCMは、クロスビュー画像間の位置優先を利用して、多粒度アライメント制約を確立する。これらのモジュールは、分散性問題により、クロスビューなジオローカライゼーションの性能を向上させる。大規模な実験により、AuxGeoは提案したCVSatデータセットの従来の手法よりも優れており、大規模な分散性の問題を軽減するとともに、CVUSA、CVACT、VIGORといった既存の公開データセットの最先端のパフォーマンスも達成している。

関連論文リスト

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文参考訳（メタデータ） (2025-11-19T18:59:22Z)
GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。既存の手法は、しばしば完全に教師付き学習に依存している。本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文参考訳（メタデータ） (2025-07-15T03:00:15Z)
LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space [20.664043071378273]
LocDiffは、マルチスケールな位置符号化空間において遅延拡散を行う最初の画像ジオローカライズモデルである。 LocDiffは、5つの挑戦的なグローバルな画像ジオローカライゼーションデータセットにおいて、最先端のグリッドベース、検索ベース、拡散ベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-23T17:15:26Z)
CV-Cities: Advancing Cross-View Geo-Localization in Global Cities [3.074201632920997]
クロスビュージオローカライゼーション(CVGL)は、地上画像の地理的位置を決定するために衛星画像のマッチングと検索を行う。この課題は, 視点の相違, 局所化シナリオの複雑化, グローバルなローカライゼーションの必要性など, 重大な課題に直面している。本稿では,基本モデルであるDINOv2と高度な機能ミキサーを統合した新しいCVGLフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-19T11:41:22Z)
Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization [28.941724648519102]
本稿では,大規模クロスビュー・ジオローカライゼーション(CVGL)におけるラベルなしデータの有効利用について検討する。 CVGLの一般的なアプローチは、地上衛星画像ペアに依存し、ラベル駆動型教師付きトレーニングを採用する。本稿では,初期擬似ラベルを検索するためのモデルを案内するクロスビュープロジェクションを含む教師なしフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T07:48:35Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2023-03-28T01:58:03Z)
Visual Cross-View Metric Localization with Dense Uncertainty Estimates [11.76638109321532]
本研究は、屋外ロボティクスにおける視覚的クロスビューメトリックローカライゼーションに対処する。地上レベルのカラー画像と局地的な環境を含む衛星パッチが与えられた場合、衛星パッチ内の地上カメラの位置を特定することが課題である。我々は、より高密度な衛星記述子、ボトルネックにおける類似性マッチング、およびマルチモーダルなローカライゼーションの曖昧さを捉えるための出力としての密度空間分布を備えた新しいネットワークアーキテクチャを考案した。
論文参考訳（メタデータ） (2022-08-17T20:12:23Z)
Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文参考訳（メタデータ） (2022-04-10T19:16:58Z)
Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文参考訳（メタデータ） (2022-03-26T20:10:38Z)
City-wide Street-to-Satellite Image Geolocalization of a Mobile Ground Agent [38.140216125792755]
クロスビュー画像のジオローカライゼーションは、GPSを必要とせずに、局地画像とオーバーヘッド衛星画像とをマッチングすることにより、エージェントのグローバルな位置を推定する。我々のアプローチはワイド・エリア・ジオローカライゼーション (WAG) と呼ばれ、ニューラルネットワークと粒子フィルタを組み合わせることで、GPSを付加した環境で移動するエージェントのグローバルな位置推定を実現している。 WAGは、20mの順序で位置推定精度を達成し、ベースライントレーニングと重み付けのアプローチと比較して98%の削減を実現した。
論文参考訳（メタデータ） (2022-03-10T19:54:12Z)
Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-08-26T16:06:11Z)
Zero-Shot Multi-View Indoor Localization via Graph Location Networks [66.05980368549928]
屋内ローカライゼーションは、位置ベースアプリケーションにおける基本的な問題である。本稿では,インフラストラクチャフリーで多視点画像に基づく屋内ローカライゼーションを実現するために,新しいニューラルネットワークアーキテクチャであるGraph Location Networks(GLN)を提案する。 GLNは、メッセージパッシングネットワークを通じて画像から抽出されたロバストな位置表現に基づいて位置予測を行う。新たにゼロショット屋内ローカライズ設定を導入し,提案したGLNを専用ゼロショットバージョンに拡張することで,その課題に対処する。
論文参考訳（メタデータ） (2020-08-06T07:36:55Z)
Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文参考訳（メタデータ） (2020-05-08T05:21:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。