論文の概要: Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations
- arxiv url: http://arxiv.org/abs/2408.11966v2
- Date: Sat, 19 Oct 2024 09:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:00:03.931804
- Title: Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations
- Title(参考訳): 3Dマップにおける視覚的位置決め:ポイントクラウド,メッシュ,NeRF表現の比較
- Authors: Lintong Zhang, Yifu Tao, Jiarong Lin, Fu Zhang, Maurice Fallon,
- Abstract要約: 様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.522160106746478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in mapping techniques have enabled the creation of highly accurate dense 3D maps during robotic missions, such as point clouds, meshes, or NeRF-based representations. These developments present new opportunities for reusing these maps for localization. However, there remains a lack of a unified approach that can operate seamlessly across different map representations. This paper presents and evaluates a global visual localization system capable of localizing a single camera image across various 3D map representations built using both visual and lidar sensing. Our system generates a database by synthesizing novel views of the scene, creating RGB and depth image pairs. Leveraging the precise 3D geometric map, our method automatically defines rendering poses, reducing the number of database images while preserving retrieval performance. To bridge the domain gap between real query camera images and synthetic database images, our approach utilizes learning-based descriptors and feature detectors. We evaluate the system's performance through extensive real-world experiments conducted in both indoor and outdoor settings, assessing the effectiveness of each map representation and demonstrating its advantages over traditional structure-from-motion (SfM) localization approaches. The results show that all three map representations can achieve consistent localization success rates of 55% and higher across various environments. NeRF synthesized images show superior performance, localizing query images at an average success rate of 72%. Furthermore, we demonstrate an advantage over SfM-based approaches that our synthesized database enables localization in the reverse travel direction which is unseen during the mapping process. Our system, operating in real-time on a mobile laptop equipped with a GPU, achieves a processing rate of 1Hz.
- Abstract(参考訳): 近年のマッピング技術の進歩により、ポイントクラウド、メッシュ、NeRFベースの表現などのロボットミッションにおいて、高精度な3Dマップの作成が可能になった。
これらの開発は、これらの地図をローカライゼーションのために再利用する新たな機会を提供する。
しかし、異なるマップ表現をシームレスに操作できる統一的なアプローチがまだ存在しない。
本稿では,視覚とライダーの両方で構築された様々な3次元地図表現に対して,単一のカメライメージをローカライズ可能なグローバルな視覚的ローカライズシステムを提案し,評価する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
高精度な3次元幾何マップを応用し,レンダリングポーズを自動的に定義し,検索性能を保ちながらデータベース画像の数を削減した。
実際の問合せカメラ画像と合成データベース画像との領域ギャップを埋めるために,学習ベースの記述子と特徴検出器を用いる。
屋内および屋外の両方で実施された広範囲な実環境実験を通じてシステムの性能評価を行い、各地図表現の有効性を評価し、従来のSfM(Structure-from-motion)ローカライゼーションアプローチに対する利点を示す。
その結果,3つの地図表現がそれぞれ55%以上の一貫した局所化成功率を達成できることが示唆された。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
さらに,SfMに基づく手法の利点として,合成したデータベースは,マッピングプロセス中に見つからない逆走行方向のローカライズを可能にする。
当社のシステムは,GPUを搭載したモバイルラップトップ上でリアルタイムに動作し,処理速度が1Hzに達する。
関連論文リスト
- LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation [5.739362282280063]
LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。
学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
論文 参考訳(メタデータ) (2024-10-06T09:26:07Z) - MeshVPR: Citywide Visual Place Recognition Using 3D Meshes [18.168206222895282]
メッシュベースのシーン表現は、大規模な階層的な視覚的ローカライゼーションパイプラインを簡素化するための有望な方向を提供する。
既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。
実世界のドメインと合成ドメインのギャップを埋めるために、軽量な特徴アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。
論文 参考訳(メタデータ) (2024-06-04T20:45:53Z) - RGBD GS-ICP SLAM [1.3108652488669732]
一般化反復閉点(G-ICP)と3次元ガウススプラッティング(DGS)を融合した新しい密度表現SLAM手法を提案する。
実験の結果,提案手法の有効性が示され,非常に高速な107 FPSが得られた。
論文 参考訳(メタデータ) (2024-03-19T08:49:48Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - 3D Surfel Map-Aided Visual Relocalization with Learned Descriptors [15.608529165143718]
本稿では3次元サーベイルマップから幾何情報を用いた視覚的再局在化手法を提案する。
ビジュアルデータベースは、まず3dサーフェルマップレンダリングのグローバルインデックスによって構築され、画像ポイントと3dサーフェルの関連を提供する。
階層型カメラ再ローカライズアルゴリズムは、視覚データベースを用いて6-DoFカメラのポーズを推定する。
論文 参考訳(メタデータ) (2021-04-08T15:59:57Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。