論文の概要: CVTNet: A Cross-View Transformer Network for Place Recognition Using
LiDAR Data
- arxiv url: http://arxiv.org/abs/2302.01665v2
- Date: Fri, 6 Oct 2023 06:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 14:57:19.397657
- Title: CVTNet: A Cross-View Transformer Network for Place Recognition Using
LiDAR Data
- Title(参考訳): CVTNet:LiDARデータを用いた位置認識のためのクロスプラットフォームトランスフォーマネットワーク
- Authors: Junyi Ma, Guangming Xiong, Jingyi Xu, Xieyuanli Chen
- Abstract要約: 本稿では,LIDARデータから発生する範囲画像ビュー(RIV)と鳥眼ビュー(BEV)を融合させる,BITNetと呼ばれるクロスビュートランスフォーマーベースのネットワークを提案する。
センサの設定や環境条件の異なる3つのデータセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 15.144590078316252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR-based place recognition (LPR) is one of the most crucial components of
autonomous vehicles to identify previously visited places in GPS-denied
environments. Most existing LPR methods use mundane representations of the
input point cloud without considering different views, which may not fully
exploit the information from LiDAR sensors. In this paper, we propose a
cross-view transformer-based network, dubbed CVTNet, to fuse the range image
views (RIVs) and bird's eye views (BEVs) generated from the LiDAR data. It
extracts correlations within the views themselves using intra-transformers and
between the two different views using inter-transformers. Based on that, our
proposed CVTNet generates a yaw-angle-invariant global descriptor for each
laser scan end-to-end online and retrieves previously seen places by descriptor
matching between the current query scan and the pre-built database. We evaluate
our approach on three datasets collected with different sensor setups and
environmental conditions. The experimental results show that our method
outperforms the state-of-the-art LPR methods with strong robustness to
viewpoint changes and long-time spans. Furthermore, our approach has a good
real-time performance that can run faster than the typical LiDAR frame rate.
The implementation of our method is released as open source at:
https://github.com/BIT-MJY/CVTNet.
- Abstract(参考訳): LiDARをベースとした位置認識(LPR)は、GPSで識別された環境において、これまで訪れた場所を特定する上で、自動運転車の最も重要なコンポーネントの1つである。
既存のLPR手法の多くは、異なるビューを考慮せずに入力ポイントクラウドの平凡な表現を使用するが、LiDARセンサーからの情報を完全に活用することはできない。
本稿では,LIDARデータから発生する範囲画像ビュー(RIV)と鳥眼ビュー(BEV)を融合させる,CVTNetと呼ばれるクロスビュートランスフォーマーネットワークを提案する。
変換器内および変換器間を用いた2つの異なるビュー間の相関関係を抽出する。
これに基づいて,提案するCVTNetは,各レーザスキャンの終端をオンライン化して,現在のクエリスキャンと事前構築したデータベースとのデクリプタマッチングにより,既往の場所を検索する,Yaw-angle-invariant Global Descriptorを生成する。
センサの設定や環境条件の異なる3つのデータセットに対するアプローチを評価した。
実験結果から,提案手法は視点変化と長期スパンに強い頑健性を有する最先端のLPR法よりも優れていた。
さらに,本手法は,通常のLiDARフレームレートよりも高速なリアルタイム性能を実現する。
本手法の実装は, https://github.com/BIT-MJY/CVTNetで公開されている。
関連論文リスト
- OVLW-DETR: Open-Vocabulary Light-Weighted Detection Transformer [63.141027246418]
本稿では,OVLW-DETR(Open-Vocabulary Light-Weighted Detection Transformer)を提案する。
本稿では,視覚言語モデル(VLM)からオブジェクト検出器への知識伝達を簡易なアライメントで行うエンド・ツー・エンドのトレーニングレシピを提案する。
実験により,提案手法は標準ゼロショットLVISベンチマークにおいて,既存の実時間開語彙検出器よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-15T12:15:27Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - PVT-SSD: Single-Stage 3D Object Detector with Point-Voxel Transformer [75.2251801053839]
単段3次元検出用ポイント・ボクセル変換器(PVT-SSD)を提案する。
本稿では,voxel から長時間のコンテキストを安価に取得できる Point-Voxel Transformer (PVT) モジュールを提案する。
いくつかの自律走行ベンチマーク実験は,提案手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2023-05-11T07:37:15Z) - SeqOT: A Spatial-Temporal Transformer Network for Place Recognition
Using Sequential LiDAR Data [9.32516766412743]
本研究では,シーケンシャルレンジ画像から得られる時間的・空間的情報を活用するトランスフォーマーネットワークSeqOTを提案する。
異なる環境下で異なる種類のLiDARセンサを用いて収集した4つのデータセットに対するアプローチを評価した。
本手法は,センサのフレームレートよりも高速に動作する。
論文 参考訳(メタデータ) (2022-09-16T14:08:11Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - MVFuseNet: Improving End-to-End Object Detection and Motion Forecasting
through Multi-View Fusion of LiDAR Data [4.8061970432391785]
We propose itMVFusenet, a novel end-to-end method for joint object detection motion forecasting from a temporal sequence of LiDAR data。
2つの大規模自動運転データセットの検出と動作予測のタスクに対する当社のマルチビューアプローチの利点を示します。
論文 参考訳(メタデータ) (2021-04-21T21:29:08Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Self-Supervised Adaptation for Video Super-Resolution [7.26562478548988]
シングルイメージスーパーリゾリューション(SISR)ネットワークは、特定の入力画像にネットワークパラメータを適応させることができます。
従来のビデオスーパーレゾリューション(VSR)ネットワークがビデオフレームをテストするためにパラメータを適応できるようにする新しい学習アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-18T08:30:24Z) - Multi-View Fusion of Sensor Data for Improved Perception and Prediction
in Autonomous Driving [11.312620949473938]
本稿では,LiDARとカメラ画像の多視点表現を用いた物体検出と軌跡予測のエンドツーエンド手法を提案する。
我々のモデルは最先端のBird's-Eye View(BEV)ネットワーク上に構築され、歴史的なLiDARデータからボキセル化された特徴を融合する。
我々は、このモデルを、ネイティブな非量子化表現で生のLiDAR情報を使用する追加のLiDAR Range-View (RV)機能で拡張する。
論文 参考訳(メタデータ) (2020-08-27T03:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。