論文の概要: Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations
- arxiv url: http://arxiv.org/abs/2408.11966v2
- Date: Sat, 19 Oct 2024 09:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:11:22.917702
- Title: Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations
- Title(参考訳): 3Dマップにおける視覚的位置決め:ポイントクラウド,メッシュ,NeRF表現の比較
- Authors: Lintong Zhang, Yifu Tao, Jiarong Lin, Fu Zhang, Maurice Fallon,
- Abstract要約: 様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
- 参考スコア(独自算出の注目度): 8.522160106746478
- License:
- Abstract: Recent advances in mapping techniques have enabled the creation of highly accurate dense 3D maps during robotic missions, such as point clouds, meshes, or NeRF-based representations. These developments present new opportunities for reusing these maps for localization. However, there remains a lack of a unified approach that can operate seamlessly across different map representations. This paper presents and evaluates a global visual localization system capable of localizing a single camera image across various 3D map representations built using both visual and lidar sensing. Our system generates a database by synthesizing novel views of the scene, creating RGB and depth image pairs. Leveraging the precise 3D geometric map, our method automatically defines rendering poses, reducing the number of database images while preserving retrieval performance. To bridge the domain gap between real query camera images and synthetic database images, our approach utilizes learning-based descriptors and feature detectors. We evaluate the system's performance through extensive real-world experiments conducted in both indoor and outdoor settings, assessing the effectiveness of each map representation and demonstrating its advantages over traditional structure-from-motion (SfM) localization approaches. The results show that all three map representations can achieve consistent localization success rates of 55% and higher across various environments. NeRF synthesized images show superior performance, localizing query images at an average success rate of 72%. Furthermore, we demonstrate an advantage over SfM-based approaches that our synthesized database enables localization in the reverse travel direction which is unseen during the mapping process. Our system, operating in real-time on a mobile laptop equipped with a GPU, achieves a processing rate of 1Hz.
- Abstract(参考訳): 近年のマッピング技術の進歩により、ポイントクラウド、メッシュ、NeRFベースの表現などのロボットミッションにおいて、高精度な3Dマップの作成が可能になった。
これらの開発は、これらの地図をローカライゼーションのために再利用する新たな機会を提供する。
しかし、異なるマップ表現をシームレスに操作できる統一的なアプローチがまだ存在しない。
本稿では,視覚とライダーの両方で構築された様々な3次元地図表現に対して,単一のカメライメージをローカライズ可能なグローバルな視覚的ローカライズシステムを提案し,評価する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
高精度な3次元幾何マップを応用し,レンダリングポーズを自動的に定義し,検索性能を保ちながらデータベース画像の数を削減した。
実際の問合せカメラ画像と合成データベース画像との領域ギャップを埋めるために,学習ベースの記述子と特徴検出器を用いる。
屋内および屋外の両方で実施された広範囲な実環境実験を通じてシステムの性能評価を行い、各地図表現の有効性を評価し、従来のSfM(Structure-from-motion)ローカライゼーションアプローチに対する利点を示す。
その結果,3つの地図表現がそれぞれ55%以上の一貫した局所化成功率を達成できることが示唆された。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
さらに,SfMに基づく手法の利点として,合成したデータベースは,マッピングプロセス中に見つからない逆走行方向のローカライズを可能にする。
当社のシステムは,GPUを搭載したモバイルラップトップ上でリアルタイムに動作し,処理速度が1Hzに達する。
関連論文リスト
- MeshVPR: Citywide Visual Place Recognition Using 3D Meshes [18.168206222895282]
メッシュベースのシーン表現は、大規模な階層的な視覚的ローカライゼーションパイプラインを簡素化するための有望な方向を提供する。
既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。
実世界のドメインと合成ドメインのギャップを埋めるために、軽量な特徴アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。
論文 参考訳(メタデータ) (2024-06-04T20:45:53Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection [29.118321046339656]
画像全体から複数スケールのグローバルな特徴と、AI合成画像検出のための情報パッチからの洗練されたローカル特徴を組み合わせることで、リッチで差別的な表現を学習するフレームワークを提案する。
GLFFは、マルチスケールの意味的特徴を抽出するグローバルブランチと、詳細なローカルアーティファクト抽出のための情報パッチを選択するローカルブランチの2つのブランチから情報を抽出する。
論文 参考訳(メタデータ) (2022-11-16T02:03:20Z) - RenderNet: Visual Relocalization Using Virtual Viewpoints in Large-Scale
Indoor Environments [36.91498676137178]
本稿では,仮想ビュー合成に基づくRenderNetを提案する。
提案手法は大規模屋内環境における性能を大幅に向上させ,Inlocデータセットの7.1%と12.2%の改善を実現する。
論文 参考訳(メタデータ) (2022-07-26T00:08:43Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z) - 3D Surfel Map-Aided Visual Relocalization with Learned Descriptors [15.608529165143718]
本稿では3次元サーベイルマップから幾何情報を用いた視覚的再局在化手法を提案する。
ビジュアルデータベースは、まず3dサーフェルマップレンダリングのグローバルインデックスによって構築され、画像ポイントと3dサーフェルの関連を提供する。
階層型カメラ再ローカライズアルゴリズムは、視覚データベースを用いて6-DoFカメラのポーズを推定する。
論文 参考訳(メタデータ) (2021-04-08T15:59:57Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。