論文の概要: MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and
Camera Fusion
- arxiv url: http://arxiv.org/abs/2302.10511v1
- Date: Tue, 21 Feb 2023 08:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 15:58:48.186970
- Title: MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and
Camera Fusion
- Title(参考訳): mvfusion:セマンティックアライメントレーダとカメラ融合を用いたマルチビュー3dオブジェクト検出
- Authors: Zizhang Wu, Guilian Chen, Yuanzhu Gan, Lei Wang, Jian Pu
- Abstract要約: マルチビューレーダーカメラで融合した3Dオブジェクト検出は、より遠くの検知範囲と自律運転に有用な機能を提供する。
現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータで融合するための種類の設計を提供する。
セマンティック・アライメント・レーダ機能を実現するための新しいマルチビューレーダカメラフュージョン法であるMVFusionを提案する。
- 参考スコア(独自算出の注目度): 6.639648061168067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view radar-camera fused 3D object detection provides a farther
detection range and more helpful features for autonomous driving, especially
under adverse weather. The current radar-camera fusion methods deliver kinds of
designs to fuse radar information with camera data. However, these fusion
approaches usually adopt the straightforward concatenation operation between
multi-modal features, which ignores the semantic alignment with radar features
and sufficient correlations across modals. In this paper, we present MVFusion,
a novel Multi-View radar-camera Fusion method to achieve semantic-aligned radar
features and enhance the cross-modal information interaction. To achieve so, we
inject the semantic alignment into the radar features via the semantic-aligned
radar encoder (SARE) to produce image-guided radar features. Then, we propose
the radar-guided fusion transformer (RGFT) to fuse our radar and image features
to strengthen the two modals' correlation from the global scope via the
cross-attention mechanism. Extensive experiments show that MVFusion achieves
state-of-the-art performance (51.7% NDS and 45.3% mAP) on the nuScenes dataset.
We shall release our code and trained networks upon publication.
- Abstract(参考訳): マルチビューレーダカメラが融合した3dオブジェクト検出は、特に悪天候下での自動運転のより遠い検出範囲とより有用な機能を提供する。
現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータと融合させる種類の設計を提供する。
しかし、これらの融合アプローチは通常、レーダー特徴とのセマンティックアライメントやモーダル間の十分な相関を無視したマルチモーダル特徴間の直接的な結合操作を採用する。
本稿では,セマンティクスアライメントレーダ機能を実現し,クロスモーダル情報インタラクションを強化するための,新しいマルチビューレーダ・カメラ融合手法mvfusionを提案する。
そこで我々は,semantic-aligned radar encoder (sare) を用いてレーダ機能に意味的アライメントを注入し,画像誘導レーダ機能を生成する。
そこで我々は,レーダ誘導型核融合変換器(RGFT)を提案し,レーダと画像の特徴を融合させ,クロスアテンション機構を介して2つのモードの相関関係を強化する。
大規模な実験により、MVFusionはnuScenesデータセット上で最先端のパフォーマンス(51.7% NDSと45.3% mAP)を達成することが示された。
公開時には、コードとトレーニングされたネットワークをリリースします。
関連論文リスト
- RCBEVDet++: Toward High-accuracy Radar-Camera Fusion 3D Perception Network [34.45694077040797]
本稿では、BEEVDetと呼ばれるレーダーカメラ融合3Dオブジェクト検出フレームワークを提案する。
RadarBEVNetは、スパースレーダーポイントを高密度の鳥の目視特徴に符号化する。
提案手法は,3次元オブジェクト検出,BEVセマンティックセグメンテーション,および3次元マルチオブジェクト追跡タスクにおいて,最先端のレーダカメラ融合を実現する。
論文 参考訳(メタデータ) (2024-09-08T05:14:27Z) - RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection [33.07575082922186]
3次元物体検出は、自律運転における重要なタスクの1つである。
カメラのみに頼って高度に正確で頑丈な3Dオブジェクト検出を実現するのは難しい。
鳥眼ビュー(BEV)におけるレーダーカメラ融合3次元物体検出法
RadarBEVNetはデュアルストリームのレーダーバックボーンとRadar Cross-Section (RC)対応のBEVエンコーダで構成されている。
論文 参考訳(メタデータ) (2024-03-25T06:02:05Z) - Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection [6.388430091498446]
レーダとカメラデータの整合性を向上する2つの新しいレーダ前処理手法を提案する。
また,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。
我々のアプローチは、nuScenesデータセットにおける現在の最先端のレーダーカメラフュージョンベースのオブジェクト検出器よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T09:26:13Z) - RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection [15.686167262542297]
本稿では,機能レベルとインスタンスレベルの両モードを融合するRadar-Camera Multi-level fusion (RCM-Fusion)を提案する。
特徴レベルの融合のために,カメラ特徴を正確なBEV表現に変換するRadar Guided BEVを提案する。
実例レベルでの融合では,ローカライズエラーを低減するRadar Grid Point Refinementモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-17T07:22:25Z) - Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object
Detection [78.59426158981108]
この課題に対処し、動的オブジェクトの3D検出を改善するために、双方向LiDAR-Radar融合フレームワーク、Bi-LRFusionを導入する。
我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-06-02T10:57:41Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - LiRaNet: End-to-End Trajectory Prediction using Spatio-Temporal Radar
Fusion [52.59664614744447]
本稿では,レーダセンサ情報と広範に使用されているライダーと高精細度(HD)マップを用いた新しい終端軌道予測手法LiRaNetを提案する。
自動車レーダーは、リッチで補完的な情報を提供し、より長い距離の車両検出と即時速度測定を可能にします。
論文 参考訳(メタデータ) (2020-10-02T00:13:00Z) - Depth Estimation from Monocular Images and Sparse Radar Data [93.70524512061318]
本稿では,ディープニューラルネットワークを用いた単眼画像とレーダ点の融合により,より正確な深度推定を実現する可能性を検討する。
レーダ測定で発生するノイズが,既存の融合法の適用を妨げている主要な理由の1つであることが判明した。
実験はnuScenesデータセット上で行われ、カメラ、レーダー、LiDARの記録を様々な場面と気象条件で記録する最初のデータセットの1つである。
論文 参考訳(メタデータ) (2020-09-30T19:01:33Z) - RadarNet: Exploiting Radar for Robust Perception of Dynamic Objects [73.80316195652493]
我々は、自動運転車の文脈における認識のためにRadarを利用する問題に取り組む。
我々は、LiDARとRadarの両方のセンサーを知覚に利用した新しいソリューションを提案する。
RadarNetと呼ばれる我々のアプローチは、ボクセルベースの早期核融合と注意に基づく後期核融合を特徴としている。
論文 参考訳(メタデータ) (2020-07-28T17:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。