論文の概要: CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2507.04587v1
- Date: Mon, 07 Jul 2025 00:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.243909
- Title: CVFusion: Cross-View Fusion of 4D Radar and Camera for 3D Object Detection
- Title(参考訳): CVFusion:3Dオブジェクト検出のための4Dレーダとカメラのクロスビュー融合
- Authors: Hanzhi Zhong, Zhiyu Xiang, Ruoyu Xu, Jingyun Fu, Peng Xu, Shaohong Wang, Zhihao Yang, Tianyu Pu, Eryun Liu,
- Abstract要約: 本稿では,CVFusionと呼ばれる2段階間核融合ネットワークを提案する。
第1段階では、高リコール3D提案ボックスを生成するために、レーダ誘導反復(RGIter)BEV融合モジュールを設計する。
第2段階では、各提案のポイント、イメージ、BEVを含む複数の異種ビューから特徴を集約する。
提案手法は,ビュー・オブ・デルフト(VoD)とTJ4DRadSetでそれぞれ9.10%,3.68%のmAP改善を達成し,従来の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 11.109888378081187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D radar has received significant attention in autonomous driving thanks to its robustness under adverse weathers. Due to the sparse points and noisy measurements of the 4D radar, most of the research finish the 3D object detection task by integrating images from camera and perform modality fusion in BEV space. However, the potential of the radar and the fusion mechanism is still largely unexplored, hindering the performance improvement. In this study, we propose a cross-view two-stage fusion network called CVFusion. In the first stage, we design a radar guided iterative (RGIter) BEV fusion module to generate high-recall 3D proposal boxes. In the second stage, we aggregate features from multiple heterogeneous views including points, image, and BEV for each proposal. These comprehensive instance level features greatly help refine the proposals and generate high-quality predictions. Extensive experiments on public datasets show that our method outperforms the previous state-of-the-art methods by a large margin, with 9.10% and 3.68% mAP improvements on View-of-Delft (VoD) and TJ4DRadSet, respectively. Our code will be made publicly available.
- Abstract(参考訳): 4Dレーダーは悪天候下での頑丈さによって自動運転に大きな注目を集めている。
4Dレーダのスパースポイントとノイズ測定のため、ほとんどの研究はカメラからの画像を統合し、BEV空間でモダリティ融合を行うことで3Dオブジェクト検出タスクを完了した。
しかし、レーダーと核融合機構のポテンシャルはいまだに未解明であり、性能改善を妨げている。
本研究では,CVFusionと呼ばれる2段階間核融合ネットワークを提案する。
第1段階では、高リコール3D提案ボックスを生成するために、レーダ誘導反復(RGIter)BEV融合モジュールを設計する。
第2段階では、各提案のポイント、イメージ、BEVを含む複数の異種ビューから特徴を集約する。
これらの包括的なインスタンスレベルの機能は、提案を洗練し、高品質な予測を生成するのに大いに役立ちます。
公開データセットに対する大規模な実験により、我々の手法は、ビュー・オブ・デルフト(VoD)とTJ4DRadSetでそれぞれ9.10%と3.68%のmAP改善を達成し、従来の最先端手法よりも大きなマージンで性能が向上したことが示された。
私たちのコードは公開されます。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - MSSF: A 4D Radar and Camera Fusion Framework With Multi-Stage Sampling for 3D Object Detection in Autonomous Driving [9.184945917823047]
本研究では,4次元レーダとカメラを用いた簡易かつ効果的なマルチステージサンプリング・フュージョン(MSSF)ネットワークを提案する。
MSSFは、View-of-Delft(VoD)とTJ4DRadsetデータセットの3D平均精度を7.0%と4.0%改善している。
さらには、VoDデータセット上の古典的なLiDARベースのメソッドを超越している。
論文 参考訳(メタデータ) (2024-11-22T15:45:23Z) - UniBEVFusion: Unified Radar-Vision BEVFusion for 3D Object Detection [2.123197540438989]
多くのレーダービジョン融合モデルではレーダーを希薄なLiDARとして扱い、レーダー固有の情報を過小評価している。
本稿では,レーダー固有データを深度予測プロセスに統合したRDLモジュールを提案する。
また、異なるモードでBEV機能を抽出するUnified Feature Fusion (UFF)アプローチも導入する。
論文 参考訳(メタデータ) (2024-09-23T06:57:27Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。