論文の概要: M^3Detection: Multi-Frame Multi-Level Feature Fusion for Multi-Modal 3D Object Detection with Camera and 4D Imaging Radar
- arxiv url: http://arxiv.org/abs/2510.27166v1
- Date: Fri, 31 Oct 2025 04:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.976869
- Title: M^3Detection: Multi-Frame Multi-Level Feature Fusion for Multi-Modal 3D Object Detection with Camera and 4D Imaging Radar
- Title(参考訳): M^3検出:カメラと4次元イメージングレーダを用いたマルチモード3次元物体検出のためのマルチフレームマルチレベル特徴フュージョン
- Authors: Xiaozhi Li, Huijun Di, Jian Li, Feng Liu, Wei Liang,
- Abstract要約: M3Detectionは、カメラと4Dレーダのマルチモーダルデータに対するマルチレベル特徴融合を実行する、統合されたマルチフレーム3Dオブジェクト検出フレームワークである。
我々は,M3検出器が最先端の3D検出性能を実現し,カメラ4Dイメージングレーダ融合によるマルチフレーム検出の有効性を示した。
- 参考スコア(独自算出の注目度): 12.877894178462297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 4D imaging radar have enabled robust perception in adverse weather, while camera sensors provide dense semantic information. Fusing the these complementary modalities has great potential for cost-effective 3D perception. However, most existing camera-radar fusion methods are limited to single-frame inputs, capturing only a partial view of the scene. The incomplete scene information, compounded by image degradation and 4D radar sparsity, hinders overall detection performance. In contrast, multi-frame fusion offers richer spatiotemporal information but faces two challenges: achieving robust and effective object feature fusion across frames and modalities, and mitigating the computational cost of redundant feature extraction. Consequently, we propose M^3Detection, a unified multi-frame 3D object detection framework that performs multi-level feature fusion on multi-modal data from camera and 4D imaging radar. Our framework leverages intermediate features from the baseline detector and employs the tracker to produce reference trajectories, improving computational efficiency and providing richer information for second-stage. In the second stage, we design a global-level inter-object feature aggregation module guided by radar information to align global features across candidate proposals and a local-level inter-grid feature aggregation module that expands local features along the reference trajectories to enhance fine-grained object representation. The aggregated features are then processed by a trajectory-level multi-frame spatiotemporal reasoning module to encode cross-frame interactions and enhance temporal representation. Extensive experiments on the VoD and TJ4DRadSet datasets demonstrate that M^3Detection achieves state-of-the-art 3D detection performance, validating its effectiveness in multi-frame detection with camera-4D imaging radar fusion.
- Abstract(参考訳): 近年の4Dイメージングレーダの進歩により、悪天候に対する堅牢な認識が可能となり、カメラセンサーは密集したセマンティック情報を提供している。
これらの相補的なモダリティを融合させることは、コスト効率のよい3D知覚に大きな可能性を秘めている。
しかし、既存のカメラとレーダーの融合方式は単一フレームの入力に限られており、シーンの部分的なビューのみを捉えている。
不完全なシーン情報は、画像劣化と4Dレーダ間隔によって合成され、全体的な検出性能を阻害する。
対照的に、多フレーム融合はより豊かな時空間情報を提供するが、2つの課題に直面している。
その結果,M^3Detectionは,カメラと4次元イメージングレーダのマルチモーダルデータに対して,マルチレベル特徴融合を行う,統合されたマルチフレーム3次元オブジェクト検出フレームワークである。
本フレームワークは, ベースライン検出器の中間特性を活用し, トラクタを用いて参照軌道を生成し, 計算効率を向上し, 2段目でよりリッチな情報を提供する。
第2段階では、レーダ情報によって誘導されるグローバルレベルのオブジェクト間特徴集約モジュールを設計し、提案する候補間でグローバルな特徴を整合させるとともに、参照軌跡に沿った局所的な特徴を拡張してオブジェクト表現を微粒化するローカルレベルの特徴集約モジュールを設計する。
集約された特徴は、トラジェクトリレベルの多フレーム時空間推論モジュールによって処理され、フレーム間の相互作用を符号化し、時間表現を強化する。
VoDとTJ4DRadSetデータセットの大規模な実験により、M^3検出が最先端の3D検出性能を達成し、カメラ4Dイメージングレーダ融合によるマルチフレーム検出の有効性が検証された。
関連論文リスト
- MLF-4DRCNet: Multi-Level Fusion with 4D Radar and Camera for 3D Object Detection in Autonomous Driving [31.26862558777292]
MLF-4DRCNetは4次元レーダとカメラ画像の多層融合による3次元物体検出のための新しいフレームワークである。
ポイントレベル、シーンレベル、プロポーザルレベルのマルチモーダル情報を組み込んで、包括的な特徴表現を可能にする。
これは、View-of-Delftデータセット上のLiDARベースのモデルに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-23T04:02:28Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Doracamom: Joint 3D Detection and Occupancy Prediction with Multi-view 4D Radars and Cameras for Omnidirectional Perception [9.76463525667238]
マルチビューカメラと4Dレーダを融合した最初のフレームワークであるDoracamomを提案する。
コードとモデルは公開されます。
論文 参考訳(メタデータ) (2025-01-26T04:24:07Z) - 4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and
Multi-Scale Adaptive Fusion [2.911052912709637]
4次元(4D)レーダー-視覚計測(4DRVO)は4次元レーダーとカメラの補完情報を統合している。
4DRVOは4Dレーダーポイント雲の空隙による追跡誤差が顕著である可能性がある。
本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。
論文 参考訳(メタデータ) (2023-08-12T14:00:09Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。