論文の概要: MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.18613v1
- Date: Tue, 23 Sep 2025 04:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.691862
- Title: MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving
- Title(参考訳): MLF-4DRCNet:自律走行における3次元物体検出のための4次元レーダとカメラを用いた多層核融合
- Authors: Yuzhi Wu, Li Xiao, Jun Liu, Guangfeng Jiang, XiangGen Xia,
- Abstract要約: MLF-4DRCNetは4次元レーダとカメラ画像の多層融合による3次元物体検出のための新しいフレームワークである。
ポイントレベル、シーンレベル、プロポーザルレベルのマルチモーダル情報を組み込んで、包括的な特徴表現を可能にする。
これは、View-of-Delftデータセット上のLiDARベースのモデルに匹敵するパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 31.26862558777292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emerging 4D millimeter-wave radar, measuring the range, azimuth, elevation, and Doppler velocity of objects, is recognized for its cost-effectiveness and robustness in autonomous driving. Nevertheless, its point clouds exhibit significant sparsity and noise, restricting its standalone application in 3D object detection. Recent 4D radar-camera fusion methods have provided effective perception. Most existing approaches, however, adopt explicit Bird's-Eye-View fusion paradigms originally designed for LiDAR-camera fusion, neglecting radar's inherent drawbacks. Specifically, they overlook the sparse and incomplete geometry of radar point clouds and restrict fusion to coarse scene-level integration. To address these problems, we propose MLF-4DRCNet, a novel two-stage framework for 3D object detection via multi-level fusion of 4D radar and camera images. Our model incorporates the point-, scene-, and proposal-level multi-modal information, enabling comprehensive feature representation. It comprises three crucial components: the Enhanced Radar Point Encoder (ERPE) module, the Hierarchical Scene Fusion Pooling (HSFP) module, and the Proposal-Level Fusion Enhancement (PLFE) module. Operating at the point-level, ERPE densities radar point clouds with 2D image instances and encodes them into voxels via the proposed Triple-Attention Voxel Feature Encoder. HSFP dynamically integrates multi-scale voxel features with 2D image features using deformable attention to capture scene context and adopts pooling to the fused features. PLFE refines region proposals by fusing image features, and further integrates with the pooled features from HSFP. Experimental results on the View-of-Delft (VoD) and TJ4DRadSet datasets demonstrate that MLF-4DRCNet achieves the state-of-the-art performance. Notably, it attains performance comparable to LiDAR-based models on the VoD dataset.
- Abstract(参考訳): 物体の射程,方位,高度,ドップラー速度を計測する新しい4Dミリ波レーダーは,その費用対効果と自律運転の堅牢性で認識されている。
それでも、その点雲は広い範囲とノイズを示し、3Dオブジェクト検出におけるスタンドアロンの応用を制限している。
近年の4次元レーダー・カメラ融合法は, 効果的な認識を可能にしている。
しかし、既存のほとんどのアプローチでは、レーダー固有の欠点を無視して、LiDAR-カメラ融合用に設計された明示的なバード-アイビュー融合パラダイムを採用している。
具体的には、レーダーポイント雲のスパースと不完全な幾何学を見落とし、粗いシーンレベルの統合に融合を制限する。
これらの問題を解決するために,MLF-4DRCNetを提案する。これは4次元レーダとカメラ画像の多層融合による3次元物体検出のための新しい2段階フレームワークである。
本モデルでは,ポイントレベル,シーンレベル,提案レベルのマルチモーダル情報を包含し,包括的特徴表現を可能にする。
ERPE(Enhanced Radar Point Encoder)モジュール、HSFP(Hierarchical Scene Fusion Pooling)モジュール、PLFE(Product-Level Fusion Enhancement)モジュールの3つの重要なコンポーネントで構成されている。
ポイントレベルで運用されているERPEは、2Dイメージインスタンスを持つレーダーポイントクラウドを扱い、提案されたTriple-Attention Voxel Feature Encoderを介してVoxelにエンコードする。
HSFPは動的にマルチスケールのボクセル機能と2D画像機能を統合する。
PLFEはイメージ機能を融合することで領域提案を洗練し、HSFPのプールされた機能とさらに統合する。
View-of-Delft (VoD) と TJ4DRadSet データセットの実験結果から, MLF-4DRCNet が最先端の性能を達成することが示された。
注目すべきなのは、VoDデータセット上のLiDARベースのモデルに匹敵するパフォーマンスだ。
関連論文リスト
- Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving [7.037019489455008]
本研究では、4次元レーダと視覚のモダリティを融合した3次元物体検出手法ZFusionを提案する。
FP-DDCAフェイザーはTransformerブロックをパックし、異なるスケールのマルチモーダル機能をインタラクティブに融合する。
実験の結果、ZFusionは興味のある領域で最先端のmAPを達成した。
論文 参考訳(メタデータ) (2025-04-04T13:29:32Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - MSSF: A 4D Radar and Camera Fusion Framework With Multi-Stage Sampling for 3D Object Detection in Autonomous Driving [9.184945917823047]
本研究では,4次元レーダとカメラを用いた簡易かつ効果的なマルチステージサンプリング・フュージョン(MSSF)ネットワークを提案する。
MSSFは、View-of-Delft(VoD)とTJ4DRadsetデータセットの3D平均精度を7.0%と4.0%改善している。
さらには、VoDデータセット上の古典的なLiDARベースのメソッドを超越している。
論文 参考訳(メタデータ) (2024-11-22T15:45:23Z) - V2X-R: Cooperative LiDAR-4D Radar Fusion with Denoising Diffusion for 3D Object Detection [64.93675471780209]
我々は、LiDAR、カメラ、および4Dレーダを取り入れた初のシミュレーションV2XデータセットであるV2X-Rを提案する。
V2X-Rには12,079のシナリオがあり、LiDARと4Dレーダーポイント雲の37,727フレーム、150,908の画像、170,859の注釈付き3D車両バウンディングボックスがある。
本稿では,3次元物体検出のための新しいコラボレーティブLiDAR-4Dレーダ融合パイプラインを提案し,様々な融合戦略を用いて実装する。
論文 参考訳(メタデータ) (2024-11-13T07:41:47Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Volumetric Propagation Network: Stereo-LiDAR Fusion for Long-Range Depth
Estimation [81.08111209632501]
長距離深度推定のための幾何認識型ステレオLiDAR融合ネットワークを提案する。
ステレオ画像の対応を統一した3Dボリューム空間で導くためのキューとして、スパースで正確な点群を活用します。
我々のネットワークは,KITTIおよびVirtual-KITTIデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-03-24T03:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。