論文の概要: Learning Dense Flow Field for Highly-accurate Cross-view Camera
Localization
- arxiv url: http://arxiv.org/abs/2309.15556v2
- Date: Wed, 27 Dec 2023 13:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:26:39.841641
- Title: Learning Dense Flow Field for Highly-accurate Cross-view Camera
Localization
- Title(参考訳): 高精度クロスビューカメラローカライゼーションのためのDense Flow Fieldの学習
- Authors: Zhenbo Song, Xianghui Ze, Jianfeng Lu, Yujiao Shi
- Abstract要約: 本稿では,衛星画像に対する地上画像に対する3DFカメラのポーズ推定の問題に対処する。
地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習する手法を提案する。
提案手法は,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarデータセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。
- 参考スコア(独自算出の注目度): 15.89357790711828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of estimating the 3-DoF camera pose for a
ground-level image with respect to a satellite image that encompasses the local
surroundings. We propose a novel end-to-end approach that leverages the
learning of dense pixel-wise flow fields in pairs of ground and satellite
images to calculate the camera pose. Our approach differs from existing methods
by constructing the feature metric at the pixel level, enabling full-image
supervision for learning distinctive geometric configurations and visual
appearances across views. Specifically, our method employs two distinct
convolution networks for ground and satellite feature extraction. Then, we
project the ground feature map to the bird's eye view (BEV) using a fixed
camera height assumption to achieve preliminary geometric alignment. To further
establish content association between the BEV and satellite features, we
introduce a residual convolution block to refine the projected BEV feature.
Optical flow estimation is performed on the refined BEV feature map and the
satellite feature map using flow decoder networks based on RAFT. After
obtaining dense flow correspondences, we apply the least square method to
filter matching inliers and regress the ground camera pose. Extensive
experiments demonstrate significant improvements compared to state-of-the-art
methods. Notably, our approach reduces the median localization error by 89%,
19%, 80% and 35% on the KITTI, Ford multi-AV, VIGOR and Oxford RobotCar
datasets, respectively.
- Abstract(参考訳): 本稿では,局所環境を包含する衛星画像に関して,地上画像に対する3次元カメラのポーズ推定の問題に対処する。
地上画像と衛星画像のペアにおいて,高密度な画素単位の流れ場を学習し,カメラのポーズを計算する手法を提案する。
提案手法は,画素レベルで特徴量を構築することで既存の手法と異なり,視界を横断する特徴的幾何学的構成や視覚的外観を学習するためのフルイメージの監視を可能にする。
具体的には、地上および衛星の特徴抽出に2つの異なる畳み込みネットワークを用いる。
そこで, 固定カメラ高さ推定法を用いて, 地上地形図を鳥眼ビュー(BEV)に投影し, 予備的な幾何学的アライメントを実現する。
さらに、BEVと衛星の特徴の関連性を確立するために、予測されたBEV機能を洗練するための残差畳み込みブロックを導入する。
RAFTに基づくフローデコーダネットワークを用いた改良されたBEV特徴マップと衛星特徴マップ上で光流量推定を行う。
濃密な流れの対応を得た後、最小二乗法を用いて、マッチング不整合をフィルタリングし、地上カメラのポーズを後退させる。
広範な実験により、最先端の方法に比べて大幅な改善が示されている。
特に,本手法では,KITTI,Ford multi-AV,VIGOR,Oxford RobotCarの各データセットにおいて,中央値のローカライゼーション誤差を89%,19%,80%,35%削減する。
関連論文リスト
- Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Satellite Image Based Cross-view Localization for Autonomous Vehicle [59.72040418584396]
本稿では,市販の高精細衛星画像を使用可能な地図として利用することにより,良好な精度でクロスビュー車両のローカライゼーションを実現することができることを示す。
本手法はKITTIとFord Multi-AVの季節データセットを地上ビューとして,Google Mapsを衛星ビューとして検証した。
論文 参考訳(メタデータ) (2022-07-27T13:16:39Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z) - Real-time dense 3D Reconstruction from monocular video data captured by
low-cost UAVs [0.3867363075280543]
リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。
ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。
建物周辺を斜め視で飛行する無人航空機(UAV)の自己動作を利用して、選択された画像のカメラ軌道と深度の両方を、十分な新規な内容で推定します。
論文 参考訳(メタデータ) (2021-04-21T13:12:17Z) - Where am I looking at? Joint Location and Orientation Estimation by
Cross-View Matching [95.64702426906466]
ジオタグ付き空中画像の大規模データベースを考えると、クロスビューなジオローカライゼーションは問題となる。
地上画像と空中画像の向きを知ることは、これらの2つのビュー間のあいまいさを著しく軽減することができる。
局所化時の横方向のアライメントを推定する動的類似マッチングネットワークを設計する。
論文 参考訳(メタデータ) (2020-05-08T05:21:16Z) - Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。
まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。
これらの深度マップは、異なるビューを粗く整列するために使用される。
本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-27T21:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。