論文の概要: LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition
- arxiv url: http://arxiv.org/abs/2311.03198v2
- Date: Sat, 30 Dec 2023 06:39:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:11:41.566014
- Title: LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition
- Title(参考訳): LCPR: 位置認識のためのマルチスケールアテンションベースLiDARカメラフュージョンネットワーク
- Authors: Zijie Zhou, Jingyi Xu, Guangming Xiong, Junyi Ma
- Abstract要約: 本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
- 参考スコア(独自算出の注目度): 11.206532393178385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Place recognition is one of the most crucial modules for autonomous vehicles
to identify places that were previously visited in GPS-invalid environments.
Sensor fusion is considered an effective method to overcome the weaknesses of
individual sensors. In recent years, multimodal place recognition fusing
information from multiple sensors has gathered increasing attention. However,
most existing multimodal place recognition methods only use limited
field-of-view camera images, which leads to an imbalance between features from
different modalities and limits the effectiveness of sensor fusion. In this
paper, we present a novel neural network named LCPR for robust multimodal place
recognition, which fuses LiDAR point clouds with multi-view RGB images to
generate discriminative and yaw-rotation invariant representations of the
environment. A multi-scale attention-based fusion module is proposed to fully
exploit the panoramic views from different modalities of the environment and
their correlations. We evaluate our method on the nuScenes dataset, and the
experimental results show that our method can effectively utilize multi-view
camera and LiDAR data to improve the place recognition performance while
maintaining strong robustness to viewpoint changes. Our open-source code and
pre-trained models are available at https://github.com/ZhouZijie77/LCPR .
- Abstract(参考訳): 位置認識(place recognition)は、自動運転車が以前gpsで利用した場所を特定する上で最も重要なモジュールの1つである。
センサ融合は個々のセンサの弱点を克服する有効な方法と考えられている。
近年,複数のセンサから情報を取り出すマルチモーダル位置認識が注目されている。
しかし、既存のマルチモーダル位置認識手法のほとんどは、視野の狭いカメラ画像のみを使用するため、異なるモダリティの特徴間の不均衡が生じ、センサ融合の有効性が制限される。
本稿では,多視点RGB画像とLiDAR点群を融合させて,環境の識別的・ヨー回転不変表現を生成する,頑健なマルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
環境の異なるモードからのパノラマビューとその相関をフル活用するために,マルチスケールの注意に基づく融合モジュールを提案する。
提案手法をnuScenesデータセット上で評価した結果,多視点カメラとLiDARデータを有効利用して,視点変化に対する強靭性を維持しつつ,位置認識性能を向上させることができることがわかった。
私たちのオープンソースコードと事前トレーニングされたモデルは、https://github.com/ZhouZijie77/LCPR で利用可能です。
関連論文リスト
- Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone
Periocular Recognition [52.15994166413364]
我々は、複数のコンパレータを融合させて、異なるスマートフォンの画像を比較する際に、眼周囲の性能を改善する。
我々は線形ロジスティック回帰に基づく確率的融合フレームワークを使用し、融合したスコアはログライクな比率になる傾向にある。
我々のフレームワークは、同じセンサとクロスセンサーのスコア分布が整列され、共通の確率領域にマッピングされるため、異なるデバイスからの信号を処理するためのエレガントでシンプルなソリューションも提供します。
論文 参考訳(メタデータ) (2023-11-02T13:43:44Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection [0.0]
マルチモーダル2Dオブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。
マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。
我々は、nuScenesとDENSEデータセットに関する実験を通じて、我々のモデルが追加のモーダルから補完的な特徴を効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-06-30T09:40:05Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。