論文の概要: PRAM: Place Recognition Anywhere Model for Efficient Visual Localization
- arxiv url: http://arxiv.org/abs/2404.07785v1
- Date: Thu, 11 Apr 2024 14:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:40:16.785887
- Title: PRAM: Place Recognition Anywhere Model for Efficient Visual Localization
- Title(参考訳): PRAM:効率的な視覚的位置認識のための場所認識モデル
- Authors: Fei Xue, Ignas Budvytis, Roberto Cipolla,
- Abstract要約: 位置認識モデル(PRAM)を提案する。
PRAMは認識と登録という2つの主要コンポーネントから構成される。
従来の最先端のアプローチよりも2.4倍高速です。
- 参考スコア(独自算出の注目度): 37.067966065604715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans localize themselves efficiently in known environments by first recognizing landmarks defined on certain objects and their spatial relationships, and then verifying the location by aligning detailed structures of recognized objects with those in the memory. Inspired by this, we propose the place recognition anywhere model (PRAM) to perform visual localization as efficiently as humans do. PRAM consists of two main components - recognition and registration. In detail, first of all, a self-supervised map-centric landmark definition strategy is adopted, making places in either indoor or outdoor scenes act as unique landmarks. Then, sparse keypoints extracted from images, are utilized as the input to a transformer-based deep neural network for landmark recognition; these keypoints enable PRAM to recognize hundreds of landmarks with high time and memory efficiency. Keypoints along with recognized landmark labels are further used for registration between query images and the 3D landmark map. Different from previous hierarchical methods, PRAM discards global and local descriptors, and reduces over 90% storage. Since PRAM utilizes recognition and landmark-wise verification to replace global reference search and exhaustive matching respectively, it runs 2.4 times faster than prior state-of-the-art approaches. Moreover, PRAM opens new directions for visual localization including multi-modality localization, map-centric feature learning, and hierarchical scene coordinate regression.
- Abstract(参考訳): 人間は、まず特定のオブジェクトとその空間的関係に定義されたランドマークを認識し、認識されたオブジェクトの詳細な構造とメモリ内のものとを整列させることで、その位置を検証することによって、既知の環境で効率的にローカライズする。
そこで本研究では, 位置認識モデル(PRAM)を用いて, 視覚的位置決めを効率よく行う手法を提案する。
PRAMは認識と登録という2つの主要コンポーネントから構成される。
詳しくは、まず自己監督型の地図中心のランドマーク定義戦略が採用され、屋内または屋外のシーンでユニークなランドマークとして機能する。
次に、画像から抽出されたスパースキーポイントをトランスフォーマーベースのディープニューラルネットワークへの入力として利用してランドマーク認識を行う。
キーポイントと認識されたランドマークラベルは、クエリイメージと3Dランドマークマップの間の登録にさらに使用される。
従来の階層的手法とは異なり、PRAMはグローバルおよびローカルディスクリプタを捨て、90%以上のストレージを削減している。
PRAMは、グローバル参照検索と徹底的なマッチングをそれぞれ置き換えるために、認識とランドマークの検証を利用するため、従来の最先端手法よりも2.4倍高速に動作している。
さらに、PRAMは、多モードローカライゼーション、マップ中心の特徴学習、階層的なシーン座標回帰を含む、視覚的ローカライゼーションのための新しい方向を開く。
関連論文リスト
- FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [57.59857784298536]
直接2D-3Dマッチングアルゴリズムでは、メモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。
本研究では,2次元3次元探索フレームワーク内の重み付き平均演算子を用いて局所的およびグローバルな記述子を融合させることにより,この曖昧さに対処する。
ローカルのみのシステムの精度を常に改善し、メモリ要求を半減させながら階層的な手法に近い性能を達成する。
論文 参考訳(メタデータ) (2024-08-21T23:42:16Z) - PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching [42.74395278382559]
本稿では,局所的な位置のグラフを保持するトポロジカルマッピング手法であるPRISM-TopoMapを紹介する。
提案手法は,ローカライゼーションとループ閉鎖のためのスキャンマッチングパイプラインと組み合わせた学習可能なマルチモーダル位置認識を含む。
提案手法の広範な実験的評価を,写真実写環境および実ロボット上で行った。
論文 参考訳(メタデータ) (2024-04-02T06:25:16Z) - PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion [2.3020018305241337]
PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
論文 参考訳(メタデータ) (2024-01-23T20:28:06Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。
提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。
実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2021-03-24T02:08:46Z) - P2-Net: Joint Description and Detection of Local Features for Pixel and
Point Matching [78.18641868402901]
この研究は、2D画像と3D点雲の微粒な対応を確立するための取り組みである。
画素領域と点領域の固有情報変動を緩和するために,新しい損失関数と組み合わせた超広帯域受信機構を設計した。
論文 参考訳(メタデータ) (2021-03-01T14:59:40Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。