論文の概要: LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation
- arxiv url: http://arxiv.org/abs/2410.04419v1
- Date: Mon, 21 Oct 2024 06:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:00:46.471584
- Title: LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation
- Title(参考訳): LiteVLoc: 画像ゴールナビゲーションのためのMap-Liteビジュアルローカライゼーション
- Authors: Jianhao Jiao, Jinhao He, Changkun Liu, Sebastian Aegidius, Xiangcheng Hu, Tristan Braud, Dimitrios Kanoulas,
- Abstract要約: LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。
学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
- 参考スコア(独自算出の注目度): 5.739362282280063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents LiteVLoc, a hierarchical visual localization framework that uses a lightweight topo-metric map to represent the environment. The method consists of three sequential modules that estimate camera poses in a coarse-to-fine manner. Unlike mainstream approaches relying on detailed 3D representations, LiteVLoc reduces storage overhead by leveraging learning-based feature matching and geometric solvers for metric pose estimation. A novel dataset for the map-free relocalization task is also introduced. Extensive experiments including localization and navigation in both simulated and real-world scenarios have validate the system's performance and demonstrated its precision and efficiency for large-scale deployment. Code and data will be made publicly available.
- Abstract(参考訳): 本稿では,ライトウェイトなトポメトリックマップを用いて環境を表現する階層型ビジュアルローカライゼーションフレームワークLiteVLocを提案する。
この方法は、カメラのポーズを粗い方法で推定する3つの逐次モジュールから構成される。
詳細な3D表現に依存する主流のアプローチとは異なり、LiteVLocは、学習に基づく特徴マッチングと幾何学的解法を活用して、ストレージオーバーヘッドを低減する。
マップフリー再ローカライゼーションタスクのための新しいデータセットも紹介されている。
シミュレーションと実世界のシナリオの両方におけるローカライゼーションとナビゲーションを含む大規模な実験は、システムの性能を検証し、その精度と大規模展開の効率を実証した。
コードとデータは公開されます。
関連論文リスト
- Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。
視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。
視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文 参考訳(メタデータ) (2024-10-08T18:31:41Z) - SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-21T19:37:17Z) - MeshVPR: Citywide Visual Place Recognition Using 3D Meshes [18.168206222895282]
メッシュベースのシーン表現は、大規模な階層的な視覚的ローカライゼーションパイプラインを簡素化するための有望な方向を提供する。
既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。
実世界のドメインと合成ドメインのギャップを埋めるために、軽量な特徴アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。
論文 参考訳(メタデータ) (2024-06-04T20:45:53Z) - Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。