Fugu-MT 論文翻訳(概要): BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View Images

論文の概要: BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View Images

arxiv url: http://arxiv.org/abs/2302.14325v1
Date: Tue, 28 Feb 2023 05:37:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-01 17:54:57.868175
Title: BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View Images
Title（参考訳）: BEVPlace:鳥の視線画像を用いたLiDARによる位置認識学習
Authors: Lun Luo, Shuhang Zheng, Yixuan Li, Yongzhi Fan, Beinan Yu, Siyuan Cao, Huiliang Shen
Abstract要約: 位置認識における異なる表現の可能性、すなわち鳥の視線(BEV)画像について検討する。 BEV画像に基づいて訓練されたVGGNetは、わずかな視点変化のシーンにおける最先端の場所認識手法と同等のパフォーマンスを達成する。そこで我々は,クエリクラウドの位置を推定し,位置認識の利用を拡大する手法を開発した。
参考スコア（独自算出の注目度）: 20.696503005532406
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Place recognition is a key module for long-term SLAM systems. Current LiDAR-based place recognition methods are usually based on representations of point clouds such as unordered points or range images. These methods achieve high recall rates of retrieval, but their performance may degrade in the case of view variation or scene changes. In this work, we explore the potential of a different representation in place recognition, i.e. bird's eye view (BEV) images. We observe that the structural contents of BEV images are less influenced by rotations and translations of point clouds. We validate that, without any delicate design, a simple VGGNet trained on BEV images achieves comparable performance with the state-of-the-art place recognition methods in scenes of slight viewpoint changes. For more robust place recognition, we design a rotation-invariant network called BEVPlace. We use group convolution to extract rotation-equivariant local features from the images and NetVLAD for global feature aggregation. In addition, we observe that the distance between BEV features is correlated with the geometry distance of point clouds. Based on the observation, we develop a method to estimate the position of the query cloud, extending the usage of place recognition. The experiments conducted on large-scale public datasets show that our method 1) achieves state-of-the-art performance in terms of recall rates, 2) is robust to view changes, 3) shows strong generalization ability, and 4) can estimate the positions of query point clouds. Source code will be made publicly available at https://github.com/zjuluolun/BEVPlace.
Abstract（参考訳）: 場所認識は長期SLAMシステムにとって重要なモジュールである。現在のlidarに基づく位置認識手法は、通常、不整点や範囲画像などの点雲の表現に基づいている。これらの手法は検索のリコール率が高いが、ビューの変化やシーンの変化で性能が低下する可能性がある。本研究では、位置認識における異なる表現の可能性、すなわち、鳥の視線(BEV)画像について検討する。我々は,bev画像の構造的内容は点雲の回転や変換の影響が少ないことを観察する。微妙な設計がなければ、bevイメージで訓練された単純なvggnetが、わずかな視点変化の場面で最先端の場所認識手法と同等の性能を達成できることを検証する。より堅牢な位置認識のために、BEVPlaceと呼ばれる回転不変ネットワークを設計する。我々はグループ畳み込みを用いて画像から回転同変局所特徴を抽出し,大域的特徴集合にNetVLADを用いる。さらに,BEV特徴量間の距離が点雲の幾何学的距離と相関していることが観察された。そこで本研究では,クエリクラウドの位置を推定し,位置認識の利用範囲を拡大する手法を開発した。大規模公開データセットを用いた実験により,本手法が得られた。 1)リコール率で最先端のパフォーマンスを達成する。 2) 変化を見るのに堅牢です。 3)強い一般化能力を示し、 4) 問合せ点雲の位置を推定できる。ソースコードはhttps://github.com/zjuluolun/BEVPlace.comで公開されている。

関連論文リスト

RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。 RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文参考訳（メタデータ） (2024-12-17T09:47:48Z)
VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文参考訳（メタデータ） (2024-11-03T16:09:47Z)
Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。 VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文参考訳（メタデータ） (2024-06-23T20:00:20Z)
BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。 BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文参考訳（メタデータ） (2024-03-11T10:46:43Z)
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-29T15:05:11Z)
Leveraging BEV Representation for 360-degree Visual Place Recognition [14.497501941931759]
本稿では,360度視覚位置認識(VPR)におけるBird's Eye View表現の利点について検討する。本稿では,特徴抽出,特徴集約,視覚-LiDAR融合におけるBEV表現を利用した新しいネットワークアーキテクチャを提案する。提案手法は,2つのデータセットのアブレーションおよび比較研究において評価される。
論文参考訳（メタデータ） (2023-05-23T08:29:42Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through Bird's Eye View Projections [18.7557037030769]
位置認識は、完全な自律性を達成するための、自動運転車にとって重要な技術である。クロスモーダルデータを同じモダリティに変換することで,I2P-Rec法を提案する。トレーニングデータの小さなセットだけで、I2P-Recはポイントクラウドマップ上のモノクロ画像とステレオ画像のローカライズ時に、80%と90%でトップ1%のリコール率を達成する。
論文参考訳（メタデータ） (2023-03-02T07:56:04Z)
Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文参考訳（メタデータ） (2022-09-12T15:29:13Z)
Robust Place Recognition using an Imaging Lidar [45.37172889338924]
本研究では,画像lidarを用いたロバストなリアルタイム位置認識手法を提案する。本手法は真不変であり,逆再訪と逆逆再訪に対処できる。
論文参考訳（メタデータ） (2021-03-03T01:08:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。