論文の概要: FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection
- arxiv url: http://arxiv.org/abs/2209.10733v1
- Date: Thu, 22 Sep 2022 02:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 13:34:42.424253
- Title: FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection
- Title(参考訳): fusionrcnn: 2段階3d物体検出のためのライダーカメラ融合
- Authors: Xinli Xu, Shaocong Dong, Lihe Ding, Jie Wang, Tingfa Xu, Jianan Li
- Abstract要約: 既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
- 参考スコア(独自算出の注目度): 11.962073589763676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D object detection with multi-sensors is essential for an accurate and
reliable perception system of autonomous driving and robotics. Existing 3D
detectors significantly improve the accuracy by adopting a two-stage paradigm
which merely relies on LiDAR point clouds for 3D proposal refinement. Though
impressive, the sparsity of point clouds, especially for the points far away,
making it difficult for the LiDAR-only refinement module to accurately
recognize and locate objects.To address this problem, we propose a novel
multi-modality two-stage approach named FusionRCNN, which effectively and
efficiently fuses point clouds and camera images in the Regions of
Interest(RoI). FusionRCNN adaptively integrates both sparse geometry
information from LiDAR and dense texture information from camera in a unified
attention mechanism. Specifically, it first utilizes RoIPooling to obtain an
image set with a unified size and gets the point set by sampling raw points
within proposals in the RoI extraction step; then leverages an intra-modality
self-attention to enhance the domain-specific features, following by a
well-designed cross-attention to fuse the information from two
modalities.FusionRCNN is fundamentally plug-and-play and supports different
one-stage methods with almost no architectural changes. Extensive experiments
on KITTI and Waymo benchmarks demonstrate that our method significantly boosts
the performances of popular detectors.Remarkably, FusionRCNN significantly
improves the strong SECOND baseline by 6.14% mAP on Waymo, and outperforms
competing two-stage approaches. Code will be released soon at
https://github.com/xxlbigbrother/Fusion-RCNN.
- Abstract(参考訳): 多センサを用いた3次元物体検出は、自律走行とロボット工学の正確かつ信頼性の高い認識システムに不可欠である。
既存の3D検出器は、LiDAR点雲にのみ依存した2段階のパラダイムを採用して精度を著しく向上させる。
しかし,特に遠方の点において点雲の幅が広くなり,LiDARのみの精細化モジュールがオブジェクトの正確な認識と位置決定を困難にしているため,この問題に対処するため,関心領域の点雲とカメライメージを効果的に融合するFusionRCNNという,新しい多モード2段階アプローチを提案する。
FusionRCNNは、LiDARからのスパース幾何学情報とカメラからの密集テクスチャ情報の両方を統一的な注意機構で適応的に統合する。
具体的には、まずRoIPoolingを利用して、RoI抽出ステップで提案された提案の中から生点をサンプリングして、設定した点を取得し、次に、モダリティ内自己アテンションを利用してドメイン固有の機能を強化し、よく設計されたクロスアテンションによって2つのモダリティから情報を取り出す。FusionRCNNは基本的にプラグアンドプレイであり、アーキテクチャ上のほとんど変更のない異なるワンステージメソッドをサポートする。
KITTI と Waymo ベンチマークの大規模な実験により,本手法は一般的な検出器の性能を大幅に向上させることが示された。
コードは間もなくhttps://github.com/xxlbigbrother/Fusion-RCNN.comでリリースされる。
関連論文リスト
- FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection [15.641616738865276]
本稿では,2次元RGB画像と3次元点群をセマンティックレベルで融合させて3次元物体検出タスクを増強する汎用多モード核融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
提案手法の有効性を,大規模なnuScenes検出ベンチマークで検証した。
論文 参考訳(メタデータ) (2021-06-23T14:53:22Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。