論文の概要: FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2106.12449v1
- Date: Wed, 23 Jun 2021 14:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:19:51.235941
- Title: FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object
Detection
- Title(参考訳): FusionPainting:3Dオブジェクト検出のための適応注意型マルチモーダルフュージョン
- Authors: Shaoqing Xu, Dingfu Zhou, Jin Fang, Junbo Yin, Zhou Bin and Liangjun
Zhang
- Abstract要約: 本稿では,2次元RGB画像と3次元点群をセマンティックレベルで融合させて3次元物体検出タスクを増強する汎用多モード核融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
提案手法の有効性を,大規模なnuScenes検出ベンチマークで検証した。
- 参考スコア(独自算出の注目度): 15.641616738865276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate detection of obstacles in 3D is an essential task for autonomous
driving and intelligent transportation. In this work, we propose a general
multimodal fusion framework FusionPainting to fuse the 2D RGB image and 3D
point clouds at a semantic level for boosting the 3D object detection task.
Especially, the FusionPainting framework consists of three main modules: a
multi-modal semantic segmentation module, an adaptive attention-based semantic
fusion module, and a 3D object detector. First, semantic information is
obtained for 2D images and 3D Lidar point clouds based on 2D and 3D
segmentation approaches. Then the segmentation results from different sensors
are adaptively fused based on the proposed attention-based semantic fusion
module. Finally, the point clouds painted with the fused semantic label are
sent to the 3D detector for obtaining the 3D objection results. The
effectiveness of the proposed framework has been verified on the large-scale
nuScenes detection benchmark by comparing it with three different baselines.
The experimental results show that the fusion strategy can significantly
improve the detection performance compared to the methods using only point
clouds, and the methods using point clouds only painted with 2D segmentation
information. Furthermore, the proposed approach outperforms other
state-of-the-art methods on the nuScenes testing benchmark.
- Abstract(参考訳): 3dの障害物の正確な検出は、自動運転とインテリジェントな輸送に欠かせない課題である。
本研究では,2次元RGB画像と3次元点雲を意味レベルで融合させて3次元物体検出タスクを増強する汎用多モード融合フレームワークFusionPaintingを提案する。
特にFusionPaintingフレームワークは、マルチモーダルセマンティックセグメンテーションモジュール、アダプティブアテンションベースのセマンティックフュージョンモジュール、および3Dオブジェクト検出器の3つの主要モジュールで構成されている。
まず、2次元および3次元セグメンテーションアプローチに基づく2次元画像および3次元lidar点雲について意味情報を得る。
そして、提案する注意に基づくセマンティクス融合モジュールに基づいて、異なるセンサからのセグメンテーション結果を適応的に融合する。
最後に、融合セマンティックラベルで塗られた点雲を3D検出器に送信し、3D対物結果を得る。
提案手法の有効性を3つの異なるベースラインと比較し,大規模なnuScenes検出ベンチマークで検証した。
実験の結果,点群のみを用いた手法に比べ,核融合戦略は検出性能を大幅に向上し,点群を用いた手法は2次元分節情報のみを描画することを示した。
さらに、提案手法は、nuScenesテストベンチマークにおいて、他の最先端メソッドよりも優れている。
関連論文リスト
- FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - Multi-Sem Fusion: Multimodal Semantic Fusion for 3D Object Detection [11.575945934519442]
LiDARとカメラ融合技術は、自律運転において3次元物体検出を実現することを約束している。
多くのマルチモーダルな3Dオブジェクト検出フレームワークは、2D画像からのセマンティック知識を3D LiDARポイントクラウドに統合する。
本稿では2次元画像と3次元ポイントシーン解析結果の両方から意味情報を融合する汎用多モード融合フレームワークであるMulti-Sem Fusion(MSF)を提案する。
論文 参考訳(メタデータ) (2022-12-10T10:54:41Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - FFPA-Net: Efficient Feature Fusion with Projection Awareness for 3D
Object Detection [19.419030878019974]
構造化されていない3D点雲は2D平面に充填され、3D点雲はプロジェクション対応の畳み込み層を用いて高速に抽出される。
データ前処理において、異なるセンサ信号間の対応するインデックスを予め設定する。
2つの新しいプラグアンドプレイ融合モジュールLiCamFuseとBiLiCamFuseが提案されている。
論文 参考訳(メタデータ) (2022-09-15T16:13:19Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。