論文の概要: RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2403.16440v1
- Date: Mon, 25 Mar 2024 06:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:47:46.381739
- Title: RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection
- Title(参考訳): RCBEVDet:3次元物体検出のための鳥眼視におけるレーダーカメラフュージョン
- Authors: Zhiwei Lin, Zhe Liu, Zhongyu Xia, Xinhao Wang, Yongtao Wang, Shengxiang Qi, Yang Dong, Nan Dong, Le Zhang, Ce Zhu,
- Abstract要約: 3次元物体検出は、自律運転における重要なタスクの1つである。
カメラのみに頼って高度に正確で頑丈な3Dオブジェクト検出を実現するのは難しい。
鳥眼ビュー(BEV)におけるレーダーカメラ融合3次元物体検出法
RadarBEVNetはデュアルストリームのレーダーバックボーンとRadar Cross-Section (RC)対応のBEVエンコーダで構成されている。
- 参考スコア(独自算出の注目度): 33.07575082922186
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Three-dimensional object detection is one of the key tasks in autonomous driving. To reduce costs in practice, low-cost multi-view cameras for 3D object detection are proposed to replace the expansive LiDAR sensors. However, relying solely on cameras is difficult to achieve highly accurate and robust 3D object detection. An effective solution to this issue is combining multi-view cameras with the economical millimeter-wave radar sensor to achieve more reliable multi-modal 3D object detection. In this paper, we introduce RCBEVDet, a radar-camera fusion 3D object detection method in the bird's eye view (BEV). Specifically, we first design RadarBEVNet for radar BEV feature extraction. RadarBEVNet consists of a dual-stream radar backbone and a Radar Cross-Section (RCS) aware BEV encoder. In the dual-stream radar backbone, a point-based encoder and a transformer-based encoder are proposed to extract radar features, with an injection and extraction module to facilitate communication between the two encoders. The RCS-aware BEV encoder takes RCS as the object size prior to scattering the point feature in BEV. Besides, we present the Cross-Attention Multi-layer Fusion module to automatically align the multi-modal BEV feature from radar and camera with the deformable attention mechanism, and then fuse the feature with channel and spatial fusion layers. Experimental results show that RCBEVDet achieves new state-of-the-art radar-camera fusion results on nuScenes and view-of-delft (VoD) 3D object detection benchmarks. Furthermore, RCBEVDet achieves better 3D detection results than all real-time camera-only and radar-camera 3D object detectors with a faster inference speed at 21~28 FPS. The source code will be released at https://github.com/VDIGPKU/RCBEVDet.
- Abstract(参考訳): 3次元物体検出は、自律運転における重要な課題の1つである。
低コストで3Dオブジェクト検出が可能なマルチビューカメラが提案され,LiDARセンサの代替となる。
しかし,カメラのみに頼って高精度で頑健な3次元物体検出を実現することは困難である。
この問題に対する効果的な解決策は、マルチビューカメラと経済的ミリ波レーダーセンサーを組み合わせることで、より信頼性の高いマルチモーダル3Dオブジェクト検出を実現することである。
本稿では,鳥眼ビュー(BEV)におけるレーダーカメラ融合3次元物体検出手法であるRTBEVDetを紹介する。
具体的には、レーダBEV特徴抽出のためのRadarBEVNetを最初に設計する。
RadarBEVNetは、デュアルストリームレーダーバックボーンとRadar Cross-Section (RCS)対応のBEVエンコーダで構成される。
デュアルストリームレーダバックボーンでは,2つのエンコーダ間の通信を容易にするインジェクションおよび抽出モジュールを用いて,点ベースのエンコーダと変圧器ベースのエンコーダを抽出する。
RCS対応のBEVエンコーダは、BEVの点特徴を散乱する前にRCSをオブジェクトサイズとする。
さらに,マルチモーダルBEV機能をレーダーやカメラから自動調整するクロスアテンション多層核融合モジュールを提案し,その特徴をチャネル層と空間融合層で融合させる。
実験の結果,RTBEVDet は nuScenes と View-of-delft (VoD) 3D オブジェクト検出ベンチマーク上で,最先端のレーダカメラ融合を達成できた。
さらに、RCBEVDetは、21〜28FPSの高速な推論速度で、全リアルタイムカメラとレーダーカメラの3Dオブジェクト検出器よりも優れた3D検出結果が得られる。
ソースコードはhttps://github.com/VDIGPKU/RCBEVDet.comで公開される。
関連論文リスト
- RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文 参考訳(メタデータ) (2024-09-08T05:14:27Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - HVDetFusion: A Simple and Robust Camera-Radar Fusion Framework [10.931114142452895]
現在のSOTAアルゴリズムは、カメラとLidarセンサーを組み合わせており、Lidarの価格に制限されている。
HVDetFusionは、純粋なカメラデータを検出の入力としてサポートするマルチモーダル検出アルゴリズムである。
HVDetFusionは、すべてのカメラレーダー3Dオブジェクト検出器の中で、挑戦的なnuScenesテストセットに対して、最先端の67.4% NDSを新たに達成した。
論文 参考訳(メタデータ) (2023-07-21T03:08:28Z) - RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection [15.686167262542297]
本稿では,機能レベルとインスタンスレベルの両モードを融合するRadar-Camera Multi-level fusion (RCM-Fusion)を提案する。
特徴レベルの融合のために,カメラ特徴を正確なBEV表現に変換するRadar Guided BEVを提案する。
実例レベルでの融合では,ローカライズエラーを低減するRadar Grid Point Refinementモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-17T07:22:25Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object
Detection [13.986963122264633]
TransCARはトランスフォーマーベースの3Dオブジェクト検出のためのカメラとレーダーの融合ソリューションである。
我々のモデルは、設定されたハンガリー損失を用いてクエリ毎のバウンディングボックスを推定する。
論文 参考訳(メタデータ) (2023-04-30T05:35:03Z) - CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for
Robust 3D Object Detection [12.557361522985898]
本稿では,カメラとレーダーの読み取りを3次元空間に融合させるカメラレーダマッチングネットワークCramNetを提案する。
本手法は, カメラやレーダセンサが車両内で突然故障した場合においても, 頑健な3次元物体検出を実現するセンサモダリティ・ドロップアウトによるトレーニングを支援する。
論文 参考訳(メタデータ) (2022-10-17T17:18:47Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。