論文の概要: VICI: VLM-Instructed Cross-view Image-localisation
- arxiv url: http://arxiv.org/abs/2507.04107v1
- Date: Sat, 05 Jul 2025 17:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.019471
- Title: VICI: VLM-Instructed Cross-view Image-localisation
- Title(参考訳): VICI: VLMで指示されたクロスビュー画像ローカライゼーション
- Authors: Xiaohan Zhang, Tavis Shore, Chen Chen, Oscar Mendez, Simon Hadfield, Safwan Wshah,
- Abstract要約: UAVM 2025 Challengeには,狭いFOVストリートレベルの画像と対応する衛星画像とのマッチングに焦点を当てたハイパフォーマンスなソリューションが提案されている。
- 参考スコア(独自算出の注目度): 20.751638793146387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a high-performing solution to the UAVM 2025 Challenge, which focuses on matching narrow FOV street-level images to corresponding satellite imagery using the University-1652 dataset. As panoramic Cross-View Geo-Localisation nears peak performance, it becomes increasingly important to explore more practical problem formulations. Real-world scenarios rarely offer panoramic street-level queries; instead, queries typically consist of limited-FOV images captured with unknown camera parameters. Our work prioritises discovering the highest achievable performance under these constraints, pushing the limits of existing architectures. Our method begins by retrieving candidate satellite image embeddings for a given query, followed by a re-ranking stage that selectively enhances retrieval accuracy within the top candidates. This two-stage approach enables more precise matching, even under the significant viewpoint and scale variations inherent in the task. Through experimentation, we demonstrate that our approach achieves competitive results -specifically attaining R@1 and R@10 retrieval rates of \topone\% and \topten\% respectively. This underscores the potential of optimised retrieval and re-ranking strategies in advancing practical geo-localisation performance. Code is available at https://github.com/tavisshore/VICI.
- Abstract(参考訳): 本稿では,UAVM 2025 Challengeに対する高性能なソリューションを提案する。これは,狭いFOVストリートレベルの画像を,University-1652データセットを用いて対応する衛星画像とマッチングすることに焦点を当てている。
パノラマ・クロスビュー・ジオローカライゼーションは最高性能に近づき、より実用的な問題定式化を探求することがますます重要になる。
実際のシナリオでは、パノラマなストリートレベルのクエリはめったに提供されないが、代わりに、クエリは通常、未知のカメラパラメータでキャプチャされた限定FOVイメージで構成されている。
当社の作業では、これらの制約の下で達成可能な最高のパフォーマンスを発見し、既存のアーキテクチャの限界を押し進めています。
提案手法は,まず所定のクエリに対する候補衛星画像の埋め込みを検索し,次いで上位候補内の検索精度を選択的に向上するステージを再評価する。
この2段階のアプローチは、タスク固有の重要な視点とスケールの変化の下でも、より正確なマッチングを可能にする。
実験により, 本手法は, R@1 と R@10 の検索レートがそれぞれ topone\% と \topten\% であることを示す。
このことは、実際の地理的ローカライゼーション性能を向上する上で、最適化された検索と再ランク戦略の可能性を浮き彫りにする。
コードはhttps://github.com/tavisshore/VICI.comで入手できる。
関連論文リスト
- Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Getting it Right: Improving Spatial Consistency in Text-to-Image Models [103.52640413616436]
現在のテキスト・トゥ・イメージ(T2I)モデルにおける重要な欠点の1つは、テキスト・プロンプトで指定された空間的関係を忠実に追従するイメージを一貫して生成できないことである。
4つの広く使用されている視覚データセットから600万の画像を再キャプチャすることで、空間的に焦点を絞った最初の大規模データセットであるSPRIGHTを作成します。
対象物を多数含む画像のトレーニングは,500枚の画像の微調整により,T2I-CompBenchの空間スコア0.2133の最先端結果を含む空間的整合性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-01T15:55:25Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Render-and-Compare: Cross-View 6 DoF Localization from Noisy Prior [17.08552155321949]
本研究では,従来の地上レベルの設定を超えて,空中から地上へのクロスビューのローカライゼーションを活用することを提案する。
研究対象の公開データセットは存在しないため、スマートフォンやドローンからのさまざまなクロスビュー画像を提供する新しいデータセットを収集します。
そこで我々は,検索画像の地味なポーズを半自動で取得するシステムを開発した。
論文 参考訳(メタデータ) (2023-02-13T11:43:47Z) - Cross-View Image Sequence Geo-localization [6.555961698070275]
クロスビュージオローカライゼーションは,クエリ基底画像のGPS位置を推定することを目的としている。
最近のアプローチでは、パノラマ画像を用いて視界範囲を拡大している。
本研究では、フィールド-オフ-ビューの限られた画像のシーケンスで動作する、最初のクロスビューなジオローカライズ手法を提案する。
論文 参考訳(メタデータ) (2022-10-25T19:46:18Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。