論文の概要: A Generalized Multi-Modal Fusion Detection Framework
- arxiv url: http://arxiv.org/abs/2303.07064v3
- Date: Mon, 22 Jan 2024 13:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:59:41.592495
- Title: A Generalized Multi-Modal Fusion Detection Framework
- Title(参考訳): 一般化マルチモーダル核融合検出フレームワーク
- Authors: Leichao Cui, Xiuxian Li, Min Meng, and Xiaoyu Mo
- Abstract要約: LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。
点雲の広さのため、特定のシナリオでは正確で信頼性の高い検出ができない。
マルチモーダル機能を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.951044844083936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LiDAR point clouds have become the most common data source in autonomous
driving. However, due to the sparsity of point clouds, accurate and reliable
detection cannot be achieved in specific scenarios. Because of their
complementarity with point clouds, images are getting increasing attention.
Although with some success, existing fusion methods either perform hard fusion
or do not fuse in a direct manner. In this paper, we propose a generic 3D
detection framework called MMFusion, using multi-modal features. The framework
aims to achieve accurate fusion between LiDAR and images to improve 3D
detection in complex scenes. Our framework consists of two separate streams:
the LiDAR stream and the camera stream, which can be compatible with any
single-modal feature extraction network. The Voxel Local Perception Module in
the LiDAR stream enhances local feature representation, and then the
Multi-modal Feature Fusion Module selectively combines feature output from
different streams to achieve better fusion. Extensive experiments have shown
that our framework not only outperforms existing benchmarks but also improves
their detection, especially for detecting cyclists and pedestrians on KITTI
benchmarks, with strong robustness and generalization capabilities. Hopefully,
our work will stimulate more research into multi-modal fusion for autonomous
driving tasks.
- Abstract(参考訳): LiDARポイントクラウドは、自動運転において最も一般的なデータソースになっている。
しかし、点雲のスパース性のため、特定のシナリオでは正確かつ信頼性の高い検出は達成できない。
点雲との相補性から,画像の注目が高まっている。
ある程度の成功はあるが、既存の核融合法は硬核融合を行うか直接的に融合しない。
本稿では,マルチモーダル特徴を用いたMMFusionと呼ばれる汎用3次元検出フレームワークを提案する。
このフレームワークは、複雑なシーンにおける3D検出を改善するために、LiDARと画像の正確な融合を実現することを目的としている。
我々のフレームワークは、LiDARストリームとカメラストリームの2つの別々のストリームで構成されており、任意の単一モーダル特徴抽出ネットワークと互換性がある。
lidarストリーム内のvoxel局所知覚モジュールは、局所的な特徴表現を強化し、マルチモーダル特徴融合モジュールは、異なるストリームからの機能出力を選択的に組み合わせ、より優れた融合を達成する。
広範な実験により,提案手法は既存のベンチマークよりも優れており,特にkittiベンチマークによる自転車や歩行者の検出において,強固な堅牢性と一般化能力を有する。
願わくば私たちの研究は、自動運転タスクのマルチモーダル融合に関するさらなる研究を刺激するだろう。
関連論文リスト
- mmFUSION: Multimodal Fusion for 3D Objects Detection [18.401155770778757]
マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。
本稿では,これらの課題を克服するために,新たな中間レベルマルチモーダル融合手法を提案する。
mmdetection3Dプロジェクトプラグインのコードは近く公開される予定だ。
論文 参考訳(メタデータ) (2023-11-07T15:11:27Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - FusionRCNN: LiDAR-Camera Fusion for Two-stage 3D Object Detection [11.962073589763676]
既存の3D検出器は、2段階のパラダイムを採用することで精度を大幅に向上させる。
特に遠く離れた地点では、点雲の広がりは、LiDARのみの精製モジュールがオブジェクトを正確に認識し、配置することを困難にしている。
We propose a novel multi-modality two-stage approach called FusionRCNN, which is effective and efficient fuses point clouds and camera image in the Regions of Interest(RoI)。
FusionRCNNは、強力なSECONDベースラインを6.14%のmAPで大幅に改善し、競合する2段階アプローチよりも優れている。
論文 参考訳(メタデータ) (2022-09-22T02:07:25Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Spatio-Contextual Deep Network Based Multimodal Pedestrian Detection For
Autonomous Driving [1.2599533416395765]
本稿では,RGBと熱画像を用いた歩行者検出のためのエンドツーエンドマルチモーダル融合モデルを提案する。
その新しいディープネットワークアーキテクチャは、マルチモーダル入力を効率的に活用することができる。
それぞれの結果により,それぞれの最先端性能が向上した。
論文 参考訳(メタデータ) (2021-05-26T17:50:36Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。