論文の概要: LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation
- arxiv url: http://arxiv.org/abs/2410.04419v2
- Date: Mon, 21 Oct 2024 06:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:11:20.948693
- Title: LiteVLoc: Map-Lite Visual Localization for Image Goal Navigation
- Title(参考訳): LiteVLoc: 画像ゴールナビゲーションのためのMap-Liteビジュアルローカライゼーション
- Authors: Jianhao Jiao, Jinhao He, Changkun Liu, Sebastian Aegidius, Xiangcheng Hu, Tristan Braud, Dimitrios Kanoulas,
- Abstract要約: LiteVLocは、環境を表現するために軽量のトポメトリックマップを使用する視覚的ローカライゼーションフレームワークである。
学習に基づく特徴マッチングと幾何学的解法を利用して、メートル法ポーズ推定をすることで、ストレージオーバーヘッドを低減する。
- 参考スコア(独自算出の注目度): 5.739362282280063
- License:
- Abstract: This paper presents LiteVLoc, a hierarchical visual localization framework that uses a lightweight topo-metric map to represent the environment. The method consists of three sequential modules that estimate camera poses in a coarse-to-fine manner. Unlike mainstream approaches relying on detailed 3D representations, LiteVLoc reduces storage overhead by leveraging learning-based feature matching and geometric solvers for metric pose estimation. A novel dataset for the map-free relocalization task is also introduced. Extensive experiments including localization and navigation in both simulated and real-world scenarios have validate the system's performance and demonstrated its precision and efficiency for large-scale deployment. Code and data will be made publicly available.
- Abstract(参考訳): 本稿では,ライトウェイトなトポメトリックマップを用いて環境を表現する階層型ビジュアルローカライゼーションフレームワークLiteVLocを提案する。
この方法は、カメラのポーズを粗い方法で推定する3つの逐次モジュールから構成される。
詳細な3D表現に依存する主流のアプローチとは異なり、LiteVLocは、学習に基づく特徴マッチングと幾何学的解法を活用して、ストレージオーバーヘッドを低減する。
マップフリー再ローカライゼーションタスクのための新しいデータセットも紹介されている。
シミュレーションと実世界のシナリオの両方におけるローカライゼーションとナビゲーションを含む大規模な実験は、システムの性能を検証し、その精度と大規模展開の効率を実証した。
コードとデータは公開されます。
関連論文リスト
- MeshVPR: Citywide Visual Place Recognition Using 3D Meshes [18.168206222895282]
メッシュベースのシーン表現は、大規模な階層的な視覚的ローカライゼーションパイプラインを簡素化するための有望な方向を提供する。
既存の研究は、視覚的ローカライゼーションのためのメッシュの実現可能性を示しているが、視覚的位置認識においてそれらから生成された合成データベースを使用することによる影響は、明らかにされていない。
実世界のドメインと合成ドメインのギャップを埋めるために、軽量な特徴アライメントフレームワークを利用する新しいVPRパイプラインであるMeshVPRを提案する。
論文 参考訳(メタデータ) (2024-06-04T20:45:53Z) - Splat-SLAM: Globally Optimized RGB-only SLAM with 3D Gaussians [87.48403838439391]
3D Splattingは、RGBのみの高密度SLAMの幾何学と外観の強力な表現として登場した。
本稿では,高密度な3次元ガウス写像表現を持つRGBのみのSLAMシステムを提案する。
Replica、TUM-RGBD、ScanNetのデータセットに対する実験は、グローバルに最適化された3Dガウスの有効性を示している。
論文 参考訳(メタデータ) (2024-05-26T12:26:54Z) - AGL-NET: Aerial-Ground Cross-Modal Global Localization with Varying Scales [45.315661330785275]
我々は,LiDAR点雲と衛星地図を用いたグローバルローカライゼーションのための新しい学習手法であるAGL-NETを提案する。
我々は,特徴マッチングのための画像と点間の表現ギャップを埋めること,グローバルビューとローカルビューのスケールの相違に対処すること,という2つの重要な課題に取り組む。
論文 参考訳(メタデータ) (2024-04-04T04:12:30Z) - 3DGS-ReLoc: 3D Gaussian Splatting for Map Representation and Visual ReLocalization [13.868258945395326]
本稿では,3次元ガウススプラッティングを用いた3次元マッピングと視覚的再局在のための新しいシステムを提案する。
提案手法は、LiDARとカメラデータを用いて、環境の正確な視覚的表現を生成する。
論文 参考訳(メタデータ) (2024-03-17T23:06:12Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - FD-SLAM: 3-D Reconstruction Using Features and Dense Matching [18.577229381683434]
本稿では,高密度フレーム・モデル・オードメトリーを用いたRGB-D SLAMシステムを提案する。
マップ構築をさらに安定化させる3次元特徴に基づく学習ベースのループクロージャコンポーネントを組み込んだ。
このアプローチは、他のシステムがしばしば失敗する大きなシーンにも拡張できる。
論文 参考訳(メタデータ) (2022-03-25T18:58:46Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。