Fugu-MT 論文翻訳(概要): LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition

論文の概要: LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition

arxiv url: http://arxiv.org/abs/2311.03198v2
Date: Sat, 30 Dec 2023 06:39:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 01:11:41.566014
Title: LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition
Title（参考訳）: LCPR: 位置認識のためのマルチスケールアテンションベースLiDARカメラフュージョンネットワーク
Authors: Zijie Zhou, Jingyi Xu, Guangming Xiong, Junyi Ma
Abstract要約: 本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
参考スコア（独自算出の注目度）: 11.206532393178385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Place recognition is one of the most crucial modules for autonomous vehicles to identify places that were previously visited in GPS-invalid environments. Sensor fusion is considered an effective method to overcome the weaknesses of individual sensors. In recent years, multimodal place recognition fusing information from multiple sensors has gathered increasing attention. However, most existing multimodal place recognition methods only use limited field-of-view camera images, which leads to an imbalance between features from different modalities and limits the effectiveness of sensor fusion. In this paper, we present a novel neural network named LCPR for robust multimodal place recognition, which fuses LiDAR point clouds with multi-view RGB images to generate discriminative and yaw-rotation invariant representations of the environment. A multi-scale attention-based fusion module is proposed to fully exploit the panoramic views from different modalities of the environment and their correlations. We evaluate our method on the nuScenes dataset, and the experimental results show that our method can effectively utilize multi-view camera and LiDAR data to improve the place recognition performance while maintaining strong robustness to viewpoint changes. Our open-source code and pre-trained models are available at https://github.com/ZhouZijie77/LCPR .
Abstract（参考訳）: 位置認識(place recognition)は、自動運転車が以前gpsで利用した場所を特定する上で最も重要なモジュールの1つである。センサ融合は個々のセンサの弱点を克服する有効な方法と考えられている。近年,複数のセンサから情報を取り出すマルチモーダル位置認識が注目されている。しかし、既存のマルチモーダル位置認識手法のほとんどは、視野の狭いカメラ画像のみを使用するため、異なるモダリティの特徴間の不均衡が生じ、センサ融合の有効性が制限される。本稿では,多視点RGB画像とLiDAR点群を融合させて,環境の識別的・ヨー回転不変表現を生成する,頑健なマルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。環境の異なるモードからのパノラマビューとその相関をフル活用するために,マルチスケールの注意に基づく融合モジュールを提案する。提案手法をnuScenesデータセット上で評価した結果,多視点カメラとLiDARデータを有効利用して,視点変化に対する強靭性を維持しつつ,位置認識性能を向上させることができることがわかった。私たちのオープンソースコードと事前トレーニングされたモデルは、https://github.com/ZhouZijie77/LCPR で利用可能です。

関連論文リスト

AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
MultiSensor-Home: A Wide-area Multi-modal Multi-view Dataset for Action Recognition and Transformer-based Sensor Fusion [2.7745600113170994]
ホーム環境における包括的行動認識のための新しいベンチマークであるMultiSensor-Homeデータセットを紹介する。また,マルチモーダルマルチビュー変換器を用いたセンサフュージョン (MultiTSF) 法を提案する。
論文参考訳（メタデータ） (2025-04-03T05:23:08Z)
Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文参考訳（メタデータ） (2025-03-21T12:27:49Z)
Bridging Spectral-wise and Multi-spectral Depth Estimation via Geometry-guided Contrastive Learning [14.780395819442052]
マルチスペクトル画像からの深度推定のために,アライメント・アンド・フューズ・ストラテジーという効果的な解を提案する。提案手法に基づいて,スペクトル不変および多スペクトル融合深度推定の両方を単一深度ネットワークで行うことができる。
論文参考訳（メタデータ） (2025-03-02T08:45:58Z)
Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文参考訳（メタデータ） (2024-11-06T06:58:17Z)
GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
マルチモーダル位置認識はユニセンサーシステムの弱点を克服する能力によって注目を集めています本稿では,GSPRと呼ばれる3次元ガウス型マルチモーダル位置認識ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2024-10-01T00:43:45Z)
Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文参考訳（メタデータ） (2024-07-27T03:21:44Z)
MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文参考訳（メタデータ） (2024-07-22T14:24:56Z)
Log-Likelihood Score Level Fusion for Improved Cross-Sensor Smartphone Periocular Recognition [52.15994166413364]
我々は、複数のコンパレータを融合させて、異なるスマートフォンの画像を比較する際に、眼周囲の性能を改善する。我々は線形ロジスティック回帰に基づく確率的融合フレームワークを使用し、融合したスコアはログライクな比率になる傾向にある。我々のフレームワークは、同じセンサとクロスセンサーのスコア分布が整列され、共通の確率領域にマッピングされるため、異なるデバイスからの信号を処理するためのエレガントでシンプルなソリューションも提供します。
論文参考訳（メタデータ） (2023-11-02T13:43:44Z)
Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文参考訳（メタデータ） (2023-10-21T00:56:11Z)
Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。 3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文参考訳（メタデータ） (2023-05-12T18:08:51Z)
Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文参考訳（メタデータ） (2022-03-30T11:44:56Z)
Infrared Small-Dim Target Detection with Transformer under Complex Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文参考訳（メタデータ） (2021-09-29T12:23:41Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文参考訳（メタデータ） (2021-04-07T04:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。