論文の概要: mmFUSION: Multimodal Fusion for 3D Objects Detection
- arxiv url: http://arxiv.org/abs/2311.04058v1
- Date: Tue, 7 Nov 2023 15:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 14:57:07.760180
- Title: mmFUSION: Multimodal Fusion for 3D Objects Detection
- Title(参考訳): mmFUSION:3Dオブジェクト検出のためのマルチモーダルフュージョン
- Authors: Javed Ahmad and Alessio Del Bue
- Abstract要約: マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。
本稿では,これらの課題を克服するために,新たな中間レベルマルチモーダル融合手法を提案する。
mmdetection3Dプロジェクトプラグインのコードは近く公開される予定だ。
- 参考スコア(独自算出の注目度): 18.401155770778757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-sensor fusion is essential for accurate 3D object detection in
self-driving systems. Camera and LiDAR are the most commonly used sensors, and
usually, their fusion happens at the early or late stages of 3D detectors with
the help of regions of interest (RoIs). On the other hand, fusion at the
intermediate level is more adaptive because it does not need RoIs from
modalities but is complex as the features of both modalities are presented from
different points of view. In this paper, we propose a new intermediate-level
multi-modal fusion (mmFUSION) approach to overcome these challenges. First, the
mmFUSION uses separate encoders for each modality to compute features at a
desired lower space volume. Second, these features are fused through
cross-modality and multi-modality attention mechanisms proposed in mmFUSION.
The mmFUSION framework preserves multi-modal information and learns to
complement modalities' deficiencies through attention weights. The strong
multi-modal features from the mmFUSION framework are fed to a simple 3D
detection head for 3D predictions. We evaluate mmFUSION on the KITTI and
NuScenes dataset where it performs better than available early, intermediate,
late, and even two-stage based fusion schemes. The code with the mmdetection3D
project plugin will be publicly available soon.
- Abstract(参考訳): マルチセンサー融合は、自動運転システムにおける正確な3次元物体検出に不可欠である。
カメラとLiDARは最もよく使われるセンサーであり、通常は関心のある領域(RoI)の助けを借りて3D検出器の初期段階または後期に融合する。
一方、中間レベルでの融合は、モダリティからroisを必要とせず、異なる視点から両方のモダリティの特徴が提示されるため複雑であるため、より適応的である。
本稿では,これらの課題を克服するための新しい中間レベルマルチモーダル融合(mmFUSION)手法を提案する。
第一に、mmFUSIONは各モードごとに異なるエンコーダを使用して、所望の低い空間体積で特徴を計算する。
第二に、これらの特徴はmmFUSIONで提案されたクロスモダリティおよびマルチモダリティアテンション機構を通じて融合される。
mmFUSIONフレームワークはマルチモーダル情報を保存し、注意重みを通してモダリティの欠陥を補完することを学ぶ。
mmFUSIONフレームワークの強力なマルチモーダル機能は、単純な3次元検出ヘッドに供給され、3次元予測を行う。
KITTI と NuScenes のデータセット上で mmFUSION を評価し,早期,中期,後期,さらには2段階の融合方式よりも優れた性能を示した。
mmdetection3dプロジェクトプラグインのコードは近く公開される予定だ。
関連論文リスト
- Progressive Multi-Modal Fusion for Robust 3D Object Detection [12.048303829428452]
既存の方法は、バードアイビュー(BEV)とパースペクティブビュー(PV)の両方のモードから特徴を投影することで、単一ビューでセンサフュージョンを実行する。
本稿では,中間クエリレベルとオブジェクトクエリレベルの両方で,BEVとPVの両方の機能を組み合わせたプログレッシブフュージョンフレームワークProFusion3Dを提案する。
我々のアーキテクチャは、局所的およびグローバルな特徴を融合させ、3次元オブジェクト検出の堅牢性を高める。
論文 参考訳(メタデータ) (2024-10-09T22:57:47Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - MMDR: A Result Feature Fusion Object Detection Approach for Autonomous
System [5.499393552545591]
提案手法は,MMDR (Multi-Modal Detector based based Result features) と呼ばれ,2次元と3次元の両方のオブジェクト検出タスクで動作するように設計されている。
MMDRモデルは、機能融合の段階で、浅いグローバルな特徴を取り入れ、背景情報を知覚する能力を持つモデルを提供する。
論文 参考訳(メタデータ) (2023-04-19T12:28:42Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection [83.18142309597984]
ライダーとカメラは、自動運転における3D検出を補完する情報を提供する重要なセンサーである。
我々はDeepFusionという名前の汎用マルチモーダル3D検出モデル群を開発した。
論文 参考訳(メタデータ) (2022-03-15T18:46:06Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。