論文の概要: MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2209.03102v1
- Date: Wed, 7 Sep 2022 12:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:44:37.998679
- Title: MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection
- Title(参考訳): msmdfusion: 3次元物体検出のためのマルチディテールシードを用いたlidarとカメラの多機能化
- Authors: Yang Jiao, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Xiaolin Wei, Lin
Ma, Yu-Gang Jiang
- Abstract要約: 自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 89.26380781863665
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fusing LiDAR and camera information is essential for achieving accurate and
reliable 3D object detection in autonomous driving systems. However, this is
challenging due to the difficulty of combining multi-granularity geometric and
semantic features from two drastically different modalities. Recent approaches
aim at exploring the semantic densities of camera features through lifting
points in 2D camera images (referred to as seeds) into 3D space for fusion, and
they can be roughly divided into 1) early fusion of raw points that aims at
augmenting the 3D point cloud at the early input stage, and 2) late fusion of
BEV (bird-eye view) maps that merges LiDAR and camera BEV features before the
detection head. While both have their merits in enhancing the representation
power of the combined features, this single-level fusion strategy is a
suboptimal solution to the aforementioned challenge. Their major drawbacks are
the inability to interact the multi-granularity semantic features from two
distinct modalities sufficiently. To this end, we propose a novel framework
that focuses on the multi-scale progressive interaction of the
multi-granularity LiDAR and camera features. Our proposed method, abbreviated
as MDMSFusion, achieves state-of-the-art results in 3D object detection, with
69.1 mAP and 71.8 NDS on nuScenes validation set, and 70.8 mAP and 73.2 NDS on
nuScenes test set, which rank 1st and 2nd respectively among single-model
non-ensemble approaches by the time of submission.
- Abstract(参考訳): lidarとカメラ情報の融合は、自動運転システムにおける高精度で信頼性の高い3dオブジェクト検出を実現するために不可欠である。
しかし、多粒度幾何学的特徴と意味的特徴を組み合わせることが困難であることから、これは困難である。
最近のアプローチは、2次元カメラ画像(種として参照)の3次元空間へのリフトポイントによるカメラ特徴の意味的密度の探索を目的としており、大まかに分けることができる。
1)初期入力段階における3dポイントクラウドの強化を目的とした原点の早期融合,及び
2)検出ヘッドの前にLiDARとカメラのBEV機能を融合したBEVマップ(バードアイビュー)の後期融合を行った。
両者は組み合わせた特徴の表現力を増強するメリットがあるが、この単一レベルの融合戦略は上記の課題に対する準最適解である。
彼らの大きな欠点は、2つの異なるモダリティから多粒性意味的特徴を十分に相互作用できないことである。
そこで本研究では,マルチグラニュラリティLiDARとカメラ機能とのマルチスケール・プログレッシブインタラクションに着目した新しいフレームワークを提案する。
提案手法はMDMSFusionと略して3Dオブジェクト検出の最先端化を実現し,nuScenes検証セットでは69.1 mAP,71.8 NDS,nuScenesテストセットでは73.2 NDS,それぞれ1位と2位にランク付けした。
関連論文リスト
- mmFUSION: Multimodal Fusion for 3D Objects Detection [18.401155770778757]
マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。
本稿では,これらの課題を克服するために,新たな中間レベルマルチモーダル融合手法を提案する。
mmdetection3Dプロジェクトプラグインのコードは近く公開される予定だ。
論文 参考訳(メタデータ) (2023-11-07T15:11:27Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文 参考訳(メタデータ) (2022-12-09T05:48:58Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。