論文の概要: Wavelet-based Multi-View Fusion of 4D Radar Tensor and Camera for Robust 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.22972v1
- Date: Sun, 28 Dec 2025 15:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.30492
- Title: Wavelet-based Multi-View Fusion of 4D Radar Tensor and Camera for Robust 3D Object Detection
- Title(参考訳): ウェーブレットを用いたロバスト3次元物体検出のための4次元レーダテンソルとカメラの多視点融合
- Authors: Runwei Guan, Jianan Liu, Shaofeng Liang, Fangqiang Ding, Shanliang Yao, Xiaokai Bai, Daizong Liu, Tao Huang, Guoqiang Mao, Hui Xiong,
- Abstract要約: WRCFormerは、デカップリングされたレーダーキューブのマルチビュー表現を介して、生のレーダーキューブとカメラ入力を融合する新しい3Dオブジェクト検出フレームワークである。
WRCFormerはK-Radarベンチマークで最先端のパフォーマンスを達成し、すべてのシナリオで最高のモデルを約2.4%上回っている。
- 参考スコア(独自算出の注目度): 44.78575994732947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D millimeter-wave (mmWave) radar has been widely adopted in autonomous driving and robot perception due to its low cost and all-weather robustness. However, its inherent sparsity and limited semantic richness significantly constrain perception capability. Recently, fusing camera data with 4D radar has emerged as a promising cost effective solution, by exploiting the complementary strengths of the two modalities. Nevertheless, point-cloud-based radar often suffer from information loss introduced by multi-stage signal processing, while directly utilizing raw 4D radar data incurs prohibitive computational costs. To address these challenges, we propose WRCFormer, a novel 3D object detection framework that fuses raw radar cubes with camera inputs via multi-view representations of the decoupled radar cube. Specifically, we design a Wavelet Attention Module as the basic module of wavelet-based Feature Pyramid Network (FPN) to enhance the representation of sparse radar signals and image data. We further introduce a two-stage query-based, modality-agnostic fusion mechanism termed Geometry-guided Progressive Fusion to efficiently integrate multi-view features from both modalities. Extensive experiments demonstrate that WRCFormer achieves state-of-the-art performance on the K-Radar benchmarks, surpassing the best model by approximately 2.4% in all scenarios and 1.6% in the sleet scenario, highlighting its robustness under adverse weather conditions.
- Abstract(参考訳): 4Dミリ波レーダーは、低コストで全天候の堅牢性のため、自律走行やロボットの知覚に広く採用されている。
しかし、その固有の疎さと限定的な意味豊かさは、知覚能力を著しく制限する。
近年, 2つのモードの相補的強度を活かして, 4次元レーダによるカメラデータの融合が, 有望なコスト効率のソリューションとして浮上している。
それでも、ポイントクラウドベースのレーダーは、多段階の信号処理によって引き起こされる情報損失に悩まされることが多い。
これらの課題に対処するため、WRCFormerは、分離されたレーダーキューブのマルチビュー表現を介して生のレーダキューブとカメラ入力を融合する新しい3Dオブジェクト検出フレームワークである。
具体的には、ウェーブレットベースの特徴ピラミッドネットワーク(FPN)の基本モジュールとしてウェーブレット注意モジュールを設計し、スパースレーダ信号と画像データの表現を強化する。
さらに,2段階の問合せに基づく幾何誘導プログレッシブフュージョン (Geometry-Guided Progressive Fusion) と呼ばれる2段階のモダリティ非依存核融合機構を導入し,両モードのマルチビュー機能を効率的に統合する。
大規模な実験により、WRCFormerはK-Radarベンチマークで最先端のパフォーマンスを達成し、すべてのシナリオで約2.4%、スリートシナリオで1.6%、悪天候下での堅牢性を強調した。
関連論文リスト
- RadarGen: Automotive Radar Point Cloud Generation from Cameras [64.69976771710057]
マルチビューカメラ画像からリアルな自動車用レーダー点雲を合成するための拡散モデルRadarGenを提案する。
RadarGenは、鳥の目視でレーダー計測を表現することで、レーダ領域への効率的な画像遅延拡散を適応する。
本稿では,RadarGenが特徴的レーダ計測分布を捕捉し,実データに基づいて学習した知覚モデルとのギャップを小さくすることを示す。
論文 参考訳(メタデータ) (2025-12-19T18:57:33Z) - MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving [31.26862558777292]
MLF-4DRCNetは4次元レーダとカメラ画像の多層融合による3次元物体検出のための新しいフレームワークである。
ポイントレベル、シーンレベル、プロポーザルレベルのマルチモーダル情報を組み込んで、包括的な特徴表現を可能にする。
これは、View-of-Delftデータセット上のLiDARベースのモデルに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-23T04:02:28Z) - ZFusion: An Effective Fuser of Camera and 4D Radar for 3D Object Perception in Autonomous Driving [7.037019489455008]
本研究では、4次元レーダと視覚のモダリティを融合した3次元物体検出手法ZFusionを提案する。
FP-DDCAフェイザーはTransformerブロックをパックし、異なるスケールのマルチモーダル機能をインタラクティブに融合する。
実験の結果、ZFusionは興味のある領域で最先端のmAPを達成した。
論文 参考訳(メタデータ) (2025-04-04T13:29:32Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception [61.58737390490639]
V2X-Radarは、4Dレーダを特徴とする世界初の大規模実世界のマルチモーダルデータセットである。
データセットは20KのLiDARフレーム、40Kのカメライメージ、350Kの注釈付きボックスを含む20Kの4Dレーダデータで構成されている。
様々な研究領域をサポートするために, 協調認識のためのV2X-Radar-C, 路面認識のためのV2X-Radar-I, 単車知覚のためのV2X-Radar-Vを確立した。
論文 参考訳(メタデータ) (2024-11-17T04:59:00Z) - V2X-R: Cooperative LiDAR-4D Radar Fusion with Denoising Diffusion for 3D Object Detection [64.93675471780209]
我々は、LiDAR、カメラ、および4Dレーダを取り入れた初のシミュレーションV2XデータセットであるV2X-Rを提案する。
V2X-Rには12,079のシナリオがあり、LiDARと4Dレーダーポイント雲の37,727フレーム、150,908の画像、170,859の注釈付き3D車両バウンディングボックスがある。
本稿では,3次元物体検出のための新しいコラボレーティブLiDAR-4Dレーダ融合パイプラインを提案し,様々な融合戦略を用いて実装する。
論文 参考訳(メタデータ) (2024-11-13T07:41:47Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - SMURF: Spatial Multi-Representation Fusion for 3D Object Detection with
4D Imaging Radar [12.842457981088378]
本稿では,単一4次元イメージングレーダを用いた新しい3次元物体検出手法である空間多重表現融合(SMURF)を提案する。
SMURFは、狭角分解能とレーダ信号のマルチパス伝搬による測定精度の低下を緩和する。
The experimental evaluations on View-of-Delft (VoD) and TJ4DRadSet datasets showed the effective and generalization ability of SMURF。
論文 参考訳(メタデータ) (2023-07-20T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。