論文の概要: PRAM: Place Recognition Anywhere Model for Efficient Visual Localization
- arxiv url: http://arxiv.org/abs/2404.07785v2
- Date: Fri, 07 Mar 2025 14:51:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:21:11.086948
- Title: PRAM: Place Recognition Anywhere Model for Efficient Visual Localization
- Title(参考訳): PRAM:効率的な視覚的位置認識のための場所認識モデル
- Authors: Fei Xue, Ignas Budvytis, Roberto Cipolla,
- Abstract要約: 位置認識モデル(PRAM)を提案する。
PRAMは、自己監督的な方法で3D空間で直接3Dランドマークを生成する。
グローバルディスクリプタ、繰り返しローカルディスクリプタ、冗長な3Dポイントを破棄し、メモリ効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 37.067966065604715
- License:
- Abstract: Visual localization is a key technique to a variety of applications, e.g., autonomous driving, AR/VR, and robotics. For these real applications, both efficiency and accuracy are important especially on edge devices with limited computing resources. However, previous frameworks, e.g., absolute pose regression (APR), scene coordinate regression (SCR), and the hierarchical method (HM), have limited either accuracy or efficiency in both indoor and outdoor environments. In this paper, we propose the place recognition anywhere model (PRAM), a new framework, to perform visual localization efficiently and accurately by recognizing 3D landmarks. Specifically, PRAM first generates landmarks directly in 3D space in a self-supervised manner. Without relying on commonly used classic semantic labels, these 3D landmarks can be defined in any place in indoor and outdoor scenes with higher generalization ability. Representing the map with 3D landmarks, PRAM discards global descriptors, repetitive local descriptors, and redundant 3D points, increasing the memory efficiency significantly. Then, sparse keypoints, rather than dense pixels, are utilized as the input tokens to a transformer-based recognition module for landmark recognition, which enables PRAM to recognize hundreds of landmarks with high time and memory efficiency. At test time, sparse keypoints and predicted landmark labels are utilized for outlier removal and landmark-wise 2D-3D matching as opposed to exhaustive 2D-2D matching, which further increases the time efficiency. A comprehensive evaluation of APRs, SCRs, HMs, and PRAM on both indoor and outdoor datasets demonstrates that PRAM outperforms ARPs and SCRs in large-scale scenes with a large margin and gives competitive accuracy to HMs but reduces over 90\% memory cost and runs 2.4 times faster, leading to a better balance between efficiency and accuracy.
- Abstract(参考訳): 視覚的ローカライゼーションは、例えば、自律運転、AR/VR、ロボット工学など、さまざまなアプリケーションにとって重要なテクニックである。
これらの実際のアプリケーションにとって、効率性と精度は、特に限られた計算資源を持つエッジデバイスにおいて重要である。
しかし、従来のフレームワーク、例えば絶対ポーズ回帰(APR)、シーン座標回帰(SCR)、階層的手法(HM)は、屋内環境と屋外環境の両方において精度または効率を制限している。
本稿では,3Dランドマークの認識によって視覚的ローカライゼーションを効率的に高精度に行うための新しいフレームワークであるPRAMを提案する。
特に、PRAMはまず、自己監督的な方法で3D空間でランドマークを直接生成する。
一般的に使われている古典的なセマンティックラベルを頼らずに、これらの3Dランドマークは、より高度な一般化能力を持つ屋内および屋外のシーンの任意の場所で定義することができる。
マップを3Dランドマークで表現することで、PRAMはグローバルディスクリプタ、繰り返しローカルディスクリプタ、冗長な3Dポイントを捨て、メモリ効率を大幅に向上させる。
次に、高密度画素ではなくスパースキーポイントを、ランドマーク認識のためのトランスフォーマーベースの認識モジュールへの入力トークンとして利用し、PRAMは高時間・メモリ効率で数百のランドマークを認識できる。
テスト時には、余分なキーポイントと予測されたランドマークラベルを、徹底的な2D-2Dマッチングとは対照的に、外周除去およびランドマークワイド2D-3Dマッチングに利用し、時間効率をさらに向上させる。
APR、SCR、HMs、PRAMを屋内および屋外の両方のデータセットで総合的に評価した結果、PRAMは大規模なシーンでARPやSCRよりも優れており、HMsとの競合精度は高いが、メモリコストは90倍以上減少し、2.4倍速く動作し、効率と精度のバランスが良くなっていることが示されている。
関連論文リスト
- FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [57.59857784298536]
直接2D-3Dマッチングアルゴリズムでは、メモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。
本研究では,2次元3次元探索フレームワーク内の重み付き平均演算子を用いて局所的およびグローバルな記述子を融合させることにより,この曖昧さに対処する。
ローカルのみのシステムの精度を常に改善し、メモリ要求を半減させながら階層的な手法に近い性能を達成する。
論文 参考訳(メタデータ) (2024-08-21T23:42:16Z) - PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching [42.74395278382559]
本稿では,局所的な位置のグラフを保持するトポロジカルマッピング手法であるPRISM-TopoMapを紹介する。
提案手法は,ローカライゼーションとループ閉鎖のために,スキャンマッチングパイプラインと組み合わせて学習可能なマルチモーダル位置認識を行う。
提案手法の広範な実験的評価を,写真リアリスティックな環境と実物ロボットを用いて行い,その技術状況と比較する。
論文 参考訳(メタデータ) (2024-04-02T06:25:16Z) - PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion [2.3020018305241337]
PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
論文 参考訳(メタデータ) (2024-01-23T20:28:06Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。
提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。
実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2021-03-24T02:08:46Z) - P2-Net: Joint Description and Detection of Local Features for Pixel and
Point Matching [78.18641868402901]
この研究は、2D画像と3D点雲の微粒な対応を確立するための取り組みである。
画素領域と点領域の固有情報変動を緩和するために,新しい損失関数と組み合わせた超広帯域受信機構を設計した。
論文 参考訳(メタデータ) (2021-03-01T14:59:40Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。