論文の概要: CRAFT: Camera-Radar 3D Object Detection with Spatio-Contextual Fusion
Transformer
- arxiv url: http://arxiv.org/abs/2209.06535v1
- Date: Wed, 14 Sep 2022 10:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:02:53.891192
- Title: CRAFT: Camera-Radar 3D Object Detection with Spatio-Contextual Fusion
Transformer
- Title(参考訳): 時空間融合トランスフォーマによるカメララーダ3次元物体検出
- Authors: Youngseok Kim, Sanmin Kim, Jun Won Choi, Dongsuk Kum
- Abstract要約: カメラレーダーセンサーは、LiDARと比較してコスト、信頼性、メンテナンスにおいて大きな利点がある。
既存の融合法はしばしば、後期融合戦略(英語版)と呼ばれる結果レベルで単一のモダリティの出力を融合させる。
本稿では,3次元物体検出のためのカメラとレーダーの空間的特性と文脈的特性を効果的に活用する提案レベルの早期融合手法を提案する。
我々のカメラレーダ融合アプローチは、カメラ専用ベースラインよりも8.7および10.8ポイント高いnuScenesテストセット上で、41.1% mAPと52.3% NDSの最先端を実現し、また、カメラ上での競争性能を得る。
- 参考スコア(独自算出の注目度): 14.849645397321185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera and radar sensors have significant advantages in cost, reliability,
and maintenance compared to LiDAR. Existing fusion methods often fuse the
outputs of single modalities at the result-level, called the late fusion
strategy. This can benefit from using off-the-shelf single sensor detection
algorithms, but late fusion cannot fully exploit the complementary properties
of sensors, thus having limited performance despite the huge potential of
camera-radar fusion. Here we propose a novel proposal-level early fusion
approach that effectively exploits both spatial and contextual properties of
camera and radar for 3D object detection. Our fusion framework first associates
image proposal with radar points in the polar coordinate system to efficiently
handle the discrepancy between the coordinate system and spatial properties.
Using this as a first stage, following consecutive cross-attention based
feature fusion layers adaptively exchange spatio-contextual information between
camera and radar, leading to a robust and attentive fusion. Our camera-radar
fusion approach achieves the state-of-the-art 41.1% mAP and 52.3% NDS on the
nuScenes test set, which is 8.7 and 10.8 points higher than the camera-only
baseline, as well as yielding competitive performance on the LiDAR method.
- Abstract(参考訳): カメラとレーダーセンサーはlidarに比べてコスト、信頼性、メンテナンスにおいて大きな利点がある。
既存の融合法はしばしば、後期融合戦略と呼ばれる結果レベルで単一モードの出力を融合させる。
これは、市販の単一センサー検出アルゴリズムを使用することで恩恵を受けることができるが、後期融合はセンサーの補完的特性を完全に活用することはできない。
本稿では,3次元物体検出にカメラとレーダーの空間的・文脈的特性を効果的に活用する,新しい提案レベルの早期融合手法を提案する。
まず,画像提案と極座標系におけるレーダ点を関連付け,座標系と空間特性の相違を効率的に処理する。
これを第1段階として、連続的なクロスアテンションに基づく特徴融合層が、カメラとレーダーの間で時空間情報を適応的に交換し、堅牢で注意深い融合をもたらす。
我々は,カメラ専用ベースラインよりも8.7および10.8ポイント高いnuScenesテストセットにおいて,41.1% mAPと52.3% NDSの最先端化を実現し,LiDAR法における競合性能を得る。
関連論文リスト
- Echoes Beyond Points: Unleashing the Power of Raw Radar Data in
Multi-modality Fusion [74.84019379368807]
本稿では,既存のレーダ信号処理パイプラインをスキップするEchoFusionという新しい手法を提案する。
具体的には、まずBird's Eye View (BEV)クエリを生成し、次にレーダーから他のセンサーとフューズに対応するスペクトル特徴を取ります。
論文 参考訳(メタデータ) (2023-07-31T09:53:50Z) - Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection [6.388430091498446]
レーダとカメラデータの整合性を向上する2つの新しいレーダ前処理手法を提案する。
また,オブジェクト検出のためのMulti-Task Cross-Modality Attention-Fusion Network (MCAF-Net)を導入する。
我々のアプローチは、nuScenesデータセットにおける現在の最先端のレーダーカメラフュージョンベースのオブジェクト検出器よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T09:26:13Z) - RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection [16.82884108316637]
本稿では,機能レベルとインスタンスレベルの両モードを融合するRadar-Camera Multi-level fusion (RCM-Fusion)を提案する。
特徴レベルの融合のために,カメラ特徴を正確なBEV表現に変換するRadar Guided BEVを提案する。
実例レベルでの融合では,ローカライズエラーを低減するRadar Grid Point Refinementモジュールを提案する。
論文 参考訳(メタデータ) (2023-07-17T07:22:25Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - MVFusion: Multi-View 3D Object Detection with Semantic-aligned Radar and
Camera Fusion [6.639648061168067]
マルチビューレーダーカメラで融合した3Dオブジェクト検出は、より遠くの検知範囲と自律運転に有用な機能を提供する。
現在のレーダーとカメラの融合方式は、レーダー情報をカメラデータで融合するための種類の設計を提供する。
セマンティック・アライメント・レーダ機能を実現するための新しいマルチビューレーダカメラフュージョン法であるMVFusionを提案する。
論文 参考訳(メタデータ) (2023-02-21T08:25:50Z) - CramNet: Camera-Radar Fusion with Ray-Constrained Cross-Attention for
Robust 3D Object Detection [12.557361522985898]
本稿では,カメラとレーダーの読み取りを3次元空間に融合させるカメラレーダマッチングネットワークCramNetを提案する。
本手法は, カメラやレーダセンサが車両内で突然故障した場合においても, 頑健な3次元物体検出を実現するセンサモダリティ・ドロップアウトによるトレーニングを支援する。
論文 参考訳(メタデータ) (2022-10-17T17:18:47Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。