論文の概要: Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations
- arxiv url: http://arxiv.org/abs/2408.11966v1
- Date: Wed, 21 Aug 2024 19:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 17:54:29.792104
- Title: Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations
- Title(参考訳): 3Dマップにおける視覚的位置決め:ポイントクラウド,メッシュ,NeRF表現の比較
- Authors: Lintong Zhang, Yifu Tao, Jiarong Lin, Fu Zhang, Maurice Fallon,
- Abstract要約: 本稿では,カラー3Dマップ表現内でカメラ画像のローカライズが可能なグローバルなグローバルな位置決めシステムを紹介し,評価する。
我々は、点雲、メッシュ、ニューラルフィールド(NeRF)という3種類のカラー3Dマップを作成するための最先端の3つの方法を提案する。
以上の結果から,3つの地図表現がそれぞれ55%以上の一貫した局所化成功率を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 8.522160106746478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces and assesses a cross-modal global visual localization system that can localize camera images within a color 3D map representation built using both visual and lidar sensing. We present three different state-of-the-art methods for creating the color 3D maps: point clouds, meshes, and neural radiance fields (NeRF). Our system constructs a database of synthetic RGB and depth image pairs from these representations. This database serves as the basis for global localization. We present an automatic approach that builds this database by synthesizing novel images of the scene and exploiting the 3D structure encoded in the different representations. Next, we present a global localization system that relies on the synthetic image database to accurately estimate the 6 DoF camera poses of monocular query images. Our localization approach relies on different learning-based global descriptors and feature detectors which enable robust image retrieval and matching despite the domain gap between (real) query camera images and the synthetic database images. We assess the system's performance through extensive real-world experiments in both indoor and outdoor settings, in order to evaluate the effectiveness of each map representation and the benefits against traditional structure-from-motion localization approaches. Our results show that all three map representations can achieve consistent localization success rates of 55% and higher across various environments. NeRF synthesized images show superior performance, localizing query images at an average success rate of 72%. Furthermore, we demonstrate that our synthesized database enables global localization even when the map creation data and the localization sequence are captured when travelling in opposite directions. Our system, operating in real-time on a mobile laptop equipped with a GPU, achieves a processing rate of 1Hz.
- Abstract(参考訳): 本稿では,視覚とライダーの両方のセンシングを用いて構築されたカラー3Dマップ表現内にカメライメージをローカライズ可能な,グローバルなグローバルな位置決めシステムを紹介し,評価する。
我々は,点雲,メッシュ,ニューラル放射場(NeRF)の3種類のカラー3Dマップを作成する方法を提案する。
これらの表現から合成RGBと深度画像ペアのデータベースを構築する。
このデータベースはグローバルなローカライゼーションの基礎となる。
シーンの新たなイメージを合成し、異なる表現に符号化された3D構造を活用することで、このデータベースを構築する自動手法を提案する。
次に,合成画像データベースを利用したグローバルなローカライゼーションシステムを提案し,モノクル検索画像の6DFカメラのポーズを正確に推定する。
我々のローカライゼーションアプローチは、(実際の)クエリカメラ画像と合成データベース画像とのドメインギャップにもかかわらず、堅牢な画像検索とマッチングを可能にする、学習ベースのグローバルディスクリプタと特徴検出器に依存しています。
本研究では,屋内および屋外の両方での広範囲な実環境実験を通じてシステムの性能評価を行い,各地図表現の有効性と従来の構造間ローカライゼーション手法に対する利点を評価する。
以上の結果から,3つの地図表現がそれぞれ55%以上の一貫した局所化成功率を達成できることが示唆された。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
さらに,本データベースは,地図作成データと局所化シーケンスが反対方向に移動する際にも,グローバルなローカライズが可能であることを実証した。
当社のシステムは,GPUを搭載したモバイルラップトップ上でリアルタイムに動作し,処理速度が1Hzに達する。
関連論文リスト
- LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation [5.739362282280063]
LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。
学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
論文 参考訳(メタデータ) (2024-10-06T09:26:07Z) - MeshVPR: Citywide Visual Place Recognition Using 3D Meshes [18.168206222895282]
メッシュベースのシーン表現は、大規模な階層的な視覚的ローカライゼーションパイプラインを簡素化するための有望な方向を提供する。
既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。
実世界のドメインと合成ドメインのギャップを埋めるために、軽量な特徴アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。
論文 参考訳(メタデータ) (2024-06-04T20:45:53Z) - RGBD GS-ICP SLAM [1.3108652488669732]
一般化反復閉点(G-ICP)と3次元ガウススプラッティング(DGS)を融合した新しい密度表現SLAM手法を提案する。
実験の結果,提案手法の有効性が示され,非常に高速な107 FPSが得られた。
論文 参考訳(メタデータ) (2024-03-19T08:49:48Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - 3D Surfel Map-Aided Visual Relocalization with Learned Descriptors [15.608529165143718]
本稿では3次元サーベイルマップから幾何情報を用いた視覚的再局在化手法を提案する。
ビジュアルデータベースは、まず3dサーフェルマップレンダリングのグローバルインデックスによって構築され、画像ポイントと3dサーフェルの関連を提供する。
階層型カメラ再ローカライズアルゴリズムは、視覚データベースを用いて6-DoFカメラのポーズを推定する。
論文 参考訳(メタデータ) (2021-04-08T15:59:57Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。