論文の概要: FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching
- arxiv url: http://arxiv.org/abs/2503.18725v1
- Date: Mon, 24 Mar 2025 14:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:35.215187
- Title: FG$^2$: Fine-Grained Cross-View Localization by Fine-Grained Feature Matching
- Title(参考訳): FG$^2$:ファイン・グラインド・クロスビュー・ローカライゼーション
- Authors: Zimin Xia, Alexandre Alahi,
- Abstract要約: 本研究では, 地上画像の3次元自由度ポーズを, 周囲の空中画像から推定する, 微粒なクロスビューローカライゼーション手法を提案する。
地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。
従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
- 参考スコア(独自算出の注目度): 69.81167130510333
- License:
- Abstract: We propose a novel fine-grained cross-view localization method that estimates the 3 Degrees of Freedom pose of a ground-level image in an aerial image of the surroundings by matching fine-grained features between the two images. The pose is estimated by aligning a point plane generated from the ground image with a point plane sampled from the aerial image. To generate the ground points, we first map ground image features to a 3D point cloud. Our method then learns to select features along the height dimension to pool the 3D points to a Bird's-Eye-View (BEV) plane. This selection enables us to trace which feature in the ground image contributes to the BEV representation. Next, we sample a set of sparse matches from computed point correspondences between the two point planes and compute their relative pose using Procrustes alignment. Compared to the previous state-of-the-art, our method reduces the mean localization error by 28% on the VIGOR cross-area test set. Qualitative results show that our method learns semantically consistent matches across ground and aerial views through weakly supervised learning from the camera pose.
- Abstract(参考訳): 本研究では,2つの画像間の微細な特徴を一致させて,地上画像の3次元自由度を推定する,新しい微粒なクロスビューローカライゼーション手法を提案する。
地中画像から生成された点面と地中画像からサンプリングされた点面とを合わせ、ポーズを推定する。
まず,地上画像の特徴を3次元点雲にマッピングする。
提案手法では,高度方向に沿った特徴を学習し,鳥の眼球面に3Dポイントをプールする。
この選択により、地上画像のどの特徴がBEV表現に寄与しているかを追跡できる。
次に、2つの点平面間の計算された点対応からスパースマッチングの集合をサンプリングし、プロクリストアライメントを用いて相対的なポーズを計算する。
従来の最先端技術と比較して,VIGORクロスエリアテストセットでは,平均局所化誤差を28%削減する。
定性的な結果から,カメラのポーズから弱教師付き学習を行うことで,地上と空中の視界における意味的整合性を学習できることが示唆された。
関連論文リスト
- BevSplat: Resolving Height Ambiguity via Feature-Based Gaussian Primitives for Weakly-Supervised Cross-View Localization [11.50186721264038]
本稿では、弱教師付きクロスビューローカライゼーションの問題に対処する。
目的は、ノイズの多い地上の真実の注釈で衛星画像に対する地上カメラのポーズを推定することである。
特徴に基づくガウス的プリミティブを用いて高さのあいまいさを解決する新しい手法であるBevSplatを提案する。
論文 参考訳(メタデータ) (2025-02-13T08:54:04Z) - C-BEV: Contrastive Bird's Eye View Training for Cross-View Image
Retrieval and 3-DoF Pose Estimation [27.870926763424848]
本稿では,ベクトルを埋め込み表現としてではなく,鳥眼ビュー(BEV)マップを用いた新しい学習可能な検索アーキテクチャを提案する。
我々のC-BEV法は,複数のデータセットの検索タスクにおける最先端のタスクを大きなマージンで超えている。
論文 参考訳(メタデータ) (2023-12-13T11:14:57Z) - FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文 参考訳(メタデータ) (2023-11-06T04:58:47Z) - Learning Dense Flow Field for Highly-accurate Cross-view Camera
Localization [15.89357790711828]
本稿では,衛星画像に対する地上画像に対する3DFカメラのポーズ推定の問題に対処する。
地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習する手法を提案する。
提案手法は,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarデータセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。
論文 参考訳(メタデータ) (2023-09-27T10:26:26Z) - Ground Plane Matters: Picking Up Ground Plane Prior in Monocular 3D
Object Detection [92.75961303269548]
先行する地平面は、モノクル3次元物体検出(M3OD)における非常に情報的な幾何学的手がかりである
本稿では,両問題を一度に解決するGPENetを提案する。
我々のGPENetは、他の手法よりも優れ、最先端のパフォーマンスを実現し、提案手法の有効性と優位性を示すことができる。
論文 参考訳(メタデータ) (2022-11-03T02:21:35Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - TerrainMesh: Metric-Semantic Terrain Reconstruction from Aerial Images
Using Joint 2D-3D Learning [20.81202315793742]
本稿では,視覚的オドメトリーアルゴリズムによって保持される各カメラにおける局所的メートル法-セマンティックメッシュを再構築する2次元3次元学習手法を提案する。
メッシュはグローバル環境モデルに組み立てて、オンライン操作中の地形のトポロジとセマンティクスをキャプチャすることができる。
論文 参考訳(メタデータ) (2022-04-23T05:18:39Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Mesh Reconstruction from Aerial Images for Outdoor Terrain Mapping Using
Joint 2D-3D Learning [12.741811850885309]
本稿では,無人航空機から得られた頭上画像を用いて,屋外地形のマッピングを行う。
飛行中の航空画像からの深度推定は困難です。
各カメラの局所メッシュを再構成する2d-3d学習手法を共同開発し,地球環境モデルとして構築する。
論文 参考訳(メタデータ) (2021-01-06T02:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。