論文の概要: ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2504.03438v1
- Date: Fri, 04 Apr 2025 13:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:09.386239
- Title: ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving
- Title(参考訳): ZFusion: 自律運転における3D物体認識のためのカメラと4Dレーダの有効利用
- Authors: Sheng Yang, Tong Zhan, Shichen Qiao, Jicheng Gong, Qing Yang, Yanfeng Lu, Jian Wang,
- Abstract要約: 本研究では、4次元レーダと視覚のモダリティを融合した3次元物体検出手法ZFusionを提案する。
FP-DDCAフェイザーはTransformerブロックをパックし、異なるスケールのマルチモーダル機能をインタラクティブに融合する。
実験の結果、ZFusionは興味のある領域で最先端のmAPを達成した。
- 参考スコア(独自算出の注目度): 7.03701948945501
- License:
- Abstract: Reliable 3D object perception is essential in autonomous driving. Owing to its sensing capabilities in all weather conditions, 4D radar has recently received much attention. However, compared to LiDAR, 4D radar provides much sparser point cloud. In this paper, we propose a 3D object detection method, termed ZFusion, which fuses 4D radar and vision modality. As the core of ZFusion, our proposed FP-DDCA (Feature Pyramid-Double Deformable Cross Attention) fuser complements the (sparse) radar information and (dense) vision information, effectively. Specifically, with a feature-pyramid structure, the FP-DDCA fuser packs Transformer blocks to interactively fuse multi-modal features at different scales, thus enhancing perception accuracy. In addition, we utilize the Depth-Context-Split view transformation module due to the physical properties of 4D radar. Considering that 4D radar has a much lower cost than LiDAR, ZFusion is an attractive alternative to LiDAR-based methods. In typical traffic scenarios like the VoD (View-of-Delft) dataset, experiments show that with reasonable inference speed, ZFusion achieved the state-of-the-art mAP (mean average precision) in the region of interest, while having competitive mAP in the entire area compared to the baseline methods, which demonstrates performance close to LiDAR and greatly outperforms those camera-only methods.
- Abstract(参考訳): 自律走行には信頼性の高い3D物体認識が不可欠である。
あらゆる気象条件下でのセンサー能力のため、4Dレーダーは近年多くの注目を集めている。
しかし、LiDARと比較して、4Dレーダは多くのスペーサーポイントクラウドを提供する。
本稿では、4次元レーダと視覚のモダリティを融合した3次元物体検出手法ZFusionを提案する。
ZFusionのコアとして、提案したFP-DDCA(Feature Pyramid-Double Deformable Cross Attention)ファウザーは、(少ない)レーダー情報と(密度)視覚情報を効率的に補完する。
具体的には、特徴ピラミド構造により、FP-DDCAフェイザーはトランスフォーマーブロックをパックし、異なるスケールのマルチモーダル特徴を相互に融合させ、知覚精度を高める。
さらに,4次元レーダの物理的特性から,Depth-Context-Splitビュー変換モジュールを利用する。
4DレーダーはLiDARよりもはるかに低コストであることを考えると、ZFusionはLiDARベースの手法の魅力的な代替品である。
VoD(View-of-Delft)データセットのような典型的なトラフィックシナリオでは、適切な推論速度で、ZFusionは関心領域における最先端のmAP(平均精度)を達成した一方で、ベースラインメソッドに比べて全領域で競合的なmAPを持ち、LiDARに近いパフォーマンスを示し、カメラのみの手法を大幅に上回っている。
関連論文リスト
- RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - MSSF: A 4D Radar and Camera Fusion Framework With Multi-Stage Sampling for 3D Object Detection in Autonomous Driving [9.184945917823047]
本研究では,4次元レーダとカメラを用いた簡易かつ効果的なマルチステージサンプリング・フュージョン(MSSF)ネットワークを提案する。
MSSFは、View-of-Delft(VoD)とTJ4DRadsetデータセットの3D平均精度を7.0%と4.0%改善している。
さらには、VoDデータセット上の古典的なLiDARベースのメソッドを超越している。
論文 参考訳(メタデータ) (2024-11-22T15:45:23Z) - UniBEVFusion: Unified Radar-Vision BEVFusion for 3D Object Detection [2.123197540438989]
多くのレーダービジョン融合モデルではレーダーを希薄なLiDARとして扱い、レーダー固有の情報を過小評価している。
本稿では,レーダー固有データを深度予測プロセスに統合したRDLモジュールを提案する。
また、異なるモードでBEV機能を抽出するUnified Feature Fusion (UFF)アプローチも導入する。
論文 参考訳(メタデータ) (2024-09-23T06:57:27Z) - RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar [15.776076554141687]
3D占有に基づく知覚パイプラインは、かなり進歩した自律運転を持つ。
現在の方法では、LiDARやカメラの入力を3D占有率予測に頼っている。
本稿では,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T21:48:17Z) - MVFAN: Multi-View Feature Assisted Network for 4D Radar Object Detection [15.925365473140479]
4Dレーダーは、悪天候下での弾力性と費用対効果が認められている。
LiDARやカメラとは異なり、レーダーは厳しい気象条件で損傷を受けないままである。
本稿では,自律走行車のためのレーダーによる3次元物体検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:07Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。