論文の概要: BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation
- arxiv url: http://arxiv.org/abs/2312.15363v1
- Date: Sat, 23 Dec 2023 22:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 18:29:28.622864
- Title: BEV-CV: Birds-Eye-View Transform for Cross-View Geo-Localisation
- Title(参考訳): BEV-CV: クロスビュージオローカライゼーションのためのバードアイビュー変換
- Authors: Tavis Shore, Simon Hadfield, Oscar Mendez
- Abstract要約: 地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。
BEV-CVは2つの重要な新規性を導入するアプローチである。
我々は,標準三重項損失よりも高速な収束を実現するため,正規化温度スケールクロスエントロピー損失をサブフィールドに導入する。
- 参考スコア(独自算出の注目度): 17.223341593229716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-view image matching for geo-localisation is a challenging problem due
to the significant visual difference between aerial and ground-level
viewpoints. The method provides localisation capabilities from geo-referenced
images, eliminating the need for external devices or costly equipment. This
enhances the capacity of agents to autonomously determine their position,
navigate, and operate effectively in environments where GPS signals are
unavailable. Current research employs a variety of techniques to reduce the
domain gap such as applying polar transforms to aerial images or synthesising
between perspectives. However, these approaches generally rely on having a
360{\deg} field of view, limiting real-world feasibility. We propose BEV-CV, an
approach which introduces two key novelties. Firstly we bring ground-level
images into a semantic Birds-Eye-View before matching embeddings, allowing for
direct comparison with aerial segmentation representations. Secondly, we
introduce the use of a Normalised Temperature-scaled Cross Entropy Loss to the
sub-field, achieving faster convergence than with the standard triplet loss.
BEV-CV achieves state-of-the-art recall accuracies, improving feature
extraction Top-1 rates by more than 300%, and Top-1% rates by approximately
150% for 70{\deg} crops, and for orientation-aware application we achieve a 35%
Top-1 accuracy increase with 70{\deg} crops.
- Abstract(参考訳): 地理的局所化のためのクロスビュー画像マッチングは、空中と地上の視点の視覚的違いが著しく異なるため、難しい問題である。
この方法は、地理的参照画像からのローカライズ機能を提供し、外部装置やコストのかかる機器の必要性をなくす。
これにより、GPS信号が利用できない環境で、エージェントの位置を自律的に決定し、ナビゲートし、効果的に運用することができる。
現在の研究は、航空画像に極性変換を適用することや視点間の合成など、ドメインギャップを減らすために様々な技術を使用している。
しかし、これらのアプローチは一般的に360{\deg}視野に頼り、現実の実現可能性を制限する。
BEV-CVは2つの重要な新規性を導入するアプローチである。
まず、埋め込みをマッチングする前に、地上の画像をセマンティックな鳥眼視点に持ち込み、空中のセグメンテーション表現と直接比較する。
次に,正規化温度スケールクロスエントロピー損失をサブフィールドに導入し,標準三重項損失よりも高速な収束を実現する。
bev-cvは最先端のリコール能力を達成し、フィーチャー抽出トップ1率を300%以上向上させ、トップ1%を70{\deg}作物で約150%向上させ、配向認識アプリケーションでは70{\deg}作物で35%のtop-1精度向上を達成している。
関連論文リスト
- BevSplat: Resolving Height Ambiguity via Feature-Based Gaussian Primitives for Weakly-Supervised Cross-View Localization [11.50186721264038]
本稿では、弱教師付きクロスビューローカライゼーションの問題に対処する。
目的は、ノイズの多い地上の真実の注釈で衛星画像に対する地上カメラのポーズを推定することである。
特徴に基づくガウス的プリミティブを用いて高さのあいまいさを解決する新しい手法であるBevSplatを提案する。
論文 参考訳(メタデータ) (2025-02-13T08:54:04Z) - Unsupervised Multi-view UAV Image Geo-localization via Iterative Rendering [31.716967688739036]
無人航空機 (UAV) クロスビュージオローカライゼーション (CVGL) は重要な課題である。
既存の手法は、ビュー横断検索のための視点不変の特徴を抽出するためにラベル付きデータセットの監督に依存している。
衛星画像生成のためのUAV観測から3次元空間にシーン表現を持ち上げる教師なしのソリューションを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:22:39Z) - Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network [12.692812966686066]
クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。
そこで我々は,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:03:58Z) - C-BEV: Contrastive Bird's Eye View Training for Cross-View Image
Retrieval and 3-DoF Pose Estimation [27.870926763424848]
本稿では,ベクトルを埋め込み表現としてではなく,鳥眼ビュー(BEV)マップを用いた新しい学習可能な検索アーキテクチャを提案する。
我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端のタスクを大きなマージンで超えている。
論文 参考訳(メタデータ) (2023-12-13T11:14:57Z) - FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文 参考訳(メタデータ) (2023-11-06T04:58:47Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Uncertainty-aware Vision-based Metric Cross-view Geolocalization [25.87104194833264]
地上画像と空中画像を用いて車両のポーズの確率分布を予測するエンド・ツー・エンドの微分モデルを提案する。
テストエリアからの地上データや空中データなしでも、最先端の技術を大きなマージンで改善する。
論文 参考訳(メタデータ) (2022-11-22T10:23:20Z) - Where in the World is this Image? Transformer-based Geo-localization in
the Wild [48.69031054573838]
世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。
画像全体の細部を網羅する統合型デュアルブランチトランスネットワークであるTransLocatorを提案する。
我々は、Im2GPS、Im2GPS3k、YFCC4k、YFCC26kの4つのベンチマークデータセットでTransLocatorを評価し、5.5%、14.1%、4.9%、9.9%の大陸レベルの精度改善を得た。
論文 参考訳(メタデータ) (2022-04-29T03:27:23Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。