論文の概要: Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble
- arxiv url: http://arxiv.org/abs/2407.19156v1
- Date: Sat, 27 Jul 2024 03:21:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:31:05.611491
- Title: Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble
- Title(参考訳): モダリティ非依存デコーディングと近似に基づくモダリティアンサンブルによるロバストなマルチモーダル3次元物体検出
- Authors: Juhan Cha, Minseok Joo, Jihwan Park, Sanghyeok Lee, Injae Kim, Hyunwoo J. Kim,
- Abstract要約: 既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
- 参考スコア(独自算出の注目度): 15.173314907900842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in 3D object detection have benefited from multi-modal information from the multi-view cameras and LiDAR sensors. However, the inherent disparities between the modalities pose substantial challenges. We observe that existing multi-modal 3D object detection methods heavily rely on the LiDAR sensor, treating the camera as an auxiliary modality for augmenting semantic details. This often leads to not only underutilization of camera data but also significant performance degradation in scenarios where LiDAR data is unavailable. Additionally, existing fusion methods overlook the detrimental impact of sensor noise induced by environmental changes, on detection performance. In this paper, we propose MEFormer to address the LiDAR over-reliance problem by harnessing critical information for 3D object detection from every available modality while concurrently safeguarding against corrupted signals during the fusion process. Specifically, we introduce Modality Agnostic Decoding (MOAD) that extracts geometric and semantic features with a shared transformer decoder regardless of input modalities and provides promising improvement with a single modality as well as multi-modality. Additionally, our Proximity-based Modality Ensemble (PME) module adaptively utilizes the strengths of each modality depending on the environment while mitigating the effects of a noisy sensor. Our MEFormer achieves state-of-the-art performance of 73.9% NDS and 71.5% mAP in the nuScenes validation set. Extensive analyses validate that our MEFormer improves robustness against challenging conditions such as sensor malfunctions or environmental changes. The source code is available at https://github.com/hanchaa/MEFormer
- Abstract(参考訳): 近年の3Dオブジェクト検出の進歩は、マルチビューカメラとLiDARセンサーからのマルチモーダル情報から恩恵を受けている。
しかし、モダリティ間の固有の相違は、重大な課題を引き起こす。
既存のマルチモーダル3Dオブジェクト検出法は,LiDARセンサに強く依存しており,カメラをセマンティックディテールを増強するための補助モダリティとして扱う。
これはしばしば、カメラデータの未使用化だけでなく、LiDARデータが利用できないシナリオでの大幅なパフォーマンス劣化につながる。
さらに, 既存の核融合法は, 環境変化によるセンサノイズの劣化が検出性能に与える影響を見落としている。
本稿では,LiDAR過信頼問題に対処するためのMEFormerを提案する。
具体的には、入力のモダリティに関わらず、共有トランスフォーマーデコーダで幾何学的および意味的な特徴を抽出し、単一のモダリティとマルチモダリティで有望な改善を提供するMOAD(Modality Agnostic Decoding)を導入する。
さらに,我々のPMEモジュールは,騒音センサの効果を緩和しながら,環境に応じて各モードの強度を適応的に活用する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
広範囲な分析により,MEFormerはセンサの故障や環境変化といった困難な状況に対して堅牢性を向上させることが確認された。
ソースコードはhttps://github.com/hanchaa/MEFormerで入手できる。
関連論文リスト
- MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - MultiCorrupt: A Multi-Modal Robustness Dataset and Benchmark of LiDAR-Camera Fusion for 3D Object Detection [5.462358595564476]
自動走行のためのマルチモーダル3Dオブジェクト検出モデルは、nuScenesのようなコンピュータビジョンベンチマークでは例外的な性能を示した。
しかし、密集したLiDAR点雲や精密に校正されたセンサーアレイへの依存は、現実世界のアプリケーションに課題をもたらす。
我々は,10種類の汚職に対してマルチモーダル3Dオブジェクト検出器の堅牢性を評価するためのベンチマークであるMultiCorruptを紹介する。
論文 参考訳(メタデータ) (2024-02-18T18:56:13Z) - ShaSTA-Fuse: Camera-LiDAR Sensor Fusion to Model Shape and
Spatio-Temporal Affinities for 3D Multi-Object Tracking [26.976216624424385]
3Dマルチオブジェクトトラッキング(MOT)は、自律移動エージェントが安全にシーンをナビゲートするために不可欠である。
我々は,カメラとLiDARセンサ情報を融合した3DMOTフレームワークの開発を目指している。
論文 参考訳(メタデータ) (2023-10-04T02:17:59Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object
Detection [0.0]
マルチモーダル2Dオブジェクト検出のためのモジュールアーキテクチャであるHRFuserを提案する。
マルチレゾリューション方式で複数のセンサーを融合させ、任意の数の入力モードにスケールする。
我々は、nuScenesとDENSEデータセットに関する実験を通じて、我々のモデルが追加のモーダルから補完的な特徴を効果的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-06-30T09:40:05Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。