論文の概要: RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network
- arxiv url: http://arxiv.org/abs/2409.04979v1
- Date: Sun, 8 Sep 2024 05:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:50:12.205095
- Title: RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network
- Title(参考訳): RCBEVDet++ - 高精度レーダカメラフュージョン3次元知覚ネットワークを目指して
- Authors: Zhiwei Lin, Zhe Liu, Yongtao Wang, Le Zhang, Ce Zhu,
- Abstract要約: 本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
- 参考スコア(独自算出の注目度): 34.45694077040797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceiving the surrounding environment is a fundamental task in autonomous driving. To obtain highly accurate perception results, modern autonomous driving systems typically employ multi-modal sensors to collect comprehensive environmental data. Among these, the radar-camera multi-modal perception system is especially favored for its excellent sensing capabilities and cost-effectiveness. However, the substantial modality differences between radar and camera sensors pose challenges in fusing information. To address this problem, this paper presents RCBEVDet, a radar-camera fusion 3D object detection framework. Specifically, RCBEVDet is developed from an existing camera-based 3D object detector, supplemented by a specially designed radar feature extractor, RadarBEVNet, and a Cross-Attention Multi-layer Fusion (CAMF) module. Firstly, RadarBEVNet encodes sparse radar points into a dense bird's-eye-view (BEV) feature using a dual-stream radar backbone and a Radar Cross Section aware BEV encoder. Secondly, the CAMF module utilizes a deformable attention mechanism to align radar and camera BEV features and adopts channel and spatial fusion layers to fuse them. To further enhance RCBEVDet's capabilities, we introduce RCBEVDet++, which advances the CAMF through sparse fusion, supports query-based multi-view camera perception models, and adapts to a broader range of perception tasks. Extensive experiments on the nuScenes show that our method integrates seamlessly with existing camera-based 3D perception models and improves their performance across various perception tasks. Furthermore, our method achieves state-of-the-art radar-camera fusion results in 3D object detection, BEV semantic segmentation, and 3D multi-object tracking tasks. Notably, with ViT-L as the image backbone, RCBEVDet++ achieves 72.73 NDS and 67.34 mAP in 3D object detection without test-time augmentation or model ensembling.
- Abstract(参考訳): 周囲の環境を認識することは自動運転の基本的な課題である。
高精度な認識結果を得るために、現代の自律運転システムは一般的に、総合的な環境データ収集にマルチモーダルセンサーを使用する。
これらのうち、レーダーカメラによるマルチモーダル認識システムは、優れたセンシング能力とコスト効率に特に好まれる。
しかし、レーダとカメラのセンサー間の実質的なモダリティの違いは、情報を融合する上での課題である。
本稿では,レーダカメラ融合3Dオブジェクト検出フレームワークであるCBEVDetを提案する。
具体的には、RCBEVDetは既存のカメラベースの3Dオブジェクト検出器から開発され、特別に設計されたレーダー特徴抽出器、RadarBEVNet、CAMFモジュールによって補完される。
第一に、RadarBEVNetは、二重ストリームレーダーバックボーンとレーダークロスセクションが認識するBEVエンコーダを使用して、スパースレーダーポイントを密度の高い鳥眼ビュー(BEV)特徴にエンコードする。
第2に、CAMFモジュールは変形可能なアテンション機構を使用してレーダーとカメラのBEV特徴を整列させ、チャネル層と空間融合層を融合させる。
RCBEVDetの機能をさらに強化するため、細かな融合によりCAMFを向上し、クエリベースのマルチビューカメラ認識モデルをサポートし、幅広い知覚タスクに適応するCBEVDet++を導入する。
nuScenesの大規模な実験により、既存のカメラベースの3D知覚モデルとシームレスに統合され、様々な知覚タスクにおける性能が向上することが示された。
さらに,3Dオブジェクト検出,BEVセマンティックセグメンテーション,および3Dマルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
特に、画像バックボーンとしてViT-Lを使用すると、RTBEVDet++はテスト時間拡張やモデルアンサンブルなしで3Dオブジェクト検出において72.73 NDSと67.34 mAPを達成する。
関連論文リスト
- RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection [33.07575082922186]
3次元物体検出は、自律運転における重要なタスクの1つである。
カメラのみに頼って高度に正確で頑丈な3Dオブジェクト検出を実現するのは難しい。
鳥眼ビュー(BEV)におけるレーダーカメラ融合3次元物体検出法
RadarBEVNetはデュアルストリームのレーダーバックボーンとRadar Cross-Section (RC)対応のBEVエンコーダで構成されている。
論文 参考訳(メタデータ) (2024-03-25T06:02:05Z) - CenterRadarNet: Joint 3D Object Detection and Tracking Framework using
4D FMCW Radar [28.640714690346353]
CenterRadarNetは、4D(Doppler-range-azimuth-ele)レーダーデータからの高分解能表現学習を容易にするように設計されている。
シングルステージの3Dオブジェクト検出器として、CenterRadarNetは、BEVオブジェクト分布の信頼性マップ、対応する3Dバウンディングボックス属性、および各ピクセルの外観埋め込みを推論する。
さまざまな駆動シナリオにおいて、CenterRadarNetは一貫性があり、堅牢なパフォーマンスを示し、その広範な適用性を強調している。
論文 参考訳(メタデータ) (2023-11-02T17:36:40Z) - RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection [15.686167262542297]
本稿では,機能レベルとインスタンスレベルの両モードを融合するRadar-Camera Multi-level fusion (RCM-Fusion)を提案する。
特徴レベルの融合のために,カメラ特徴を正確なBEV表現に変換するRadar Guided BEVを提案する。
実例レベルでの融合では,ローカライズエラーを低減するRadar Grid Point Refinementモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-17T07:22:25Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and
Camera Fusion [6.639648061168067]
マルチビューレーダーカメラで融合した3Dオブジェクト検出は、より遠くの検知範囲と自律運転に有用な機能を提供する。
現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータで融合するための種類の設計を提供する。
セマンティック・アライメント・レーダ機能を実現するための新しいマルチビューレーダカメラフュージョン法であるMVFusionを提案する。
論文 参考訳(メタデータ) (2023-02-21T08:25:50Z) - CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for
Robust 3D Object Detection [12.557361522985898]
本稿では,カメラとレーダーの読み取りを3次元空間に融合させるカメラレーダマッチングネットワークCramNetを提案する。
本手法は, カメラやレーダセンサが車両内で突然故障した場合においても, 頑健な3次元物体検出を実現するセンサモダリティ・ドロップアウトによるトレーニングを支援する。
論文 参考訳(メタデータ) (2022-10-17T17:18:47Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。