論文の概要: Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection
- arxiv url: http://arxiv.org/abs/2603.07486v1
- Date: Sun, 08 Mar 2026 06:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.627661
- Title: Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection
- Title(参考訳): ロバスト3次元物体検出のためのマルチモード分離・再結合ネットワーク
- Authors: Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua,
- Abstract要約: データ破損下でのロバストな3次元オブジェクト検出のためのマルチモーダルデコプル・リカップリングネットワークを提案する。
我々のモデルは、最近のモデルと比較して、腐敗したデータとクリーンなデータの両方において、常に最高の精度を達成する。
- 参考スコア(独自算出の注目度): 20.541042952048862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D object detection with bird's eye view (BEV) has achieved desired advances on benchmarks. Nonetheless, the accuracy may drop significantly in the real world due to data corruption such as sensor configurations for LiDAR and scene conditions for camera. One design bottleneck of previous models resides in the tightly coupling of multi-modal BEV features during fusion, which may degrade the overall system performance if one modality or both is corrupted. To mitigate, we propose a Multi-Modal Decouple and Recouple Network for robust 3D object detection under data corruption. Different modalities commonly share some high-level invariant features. We observe that these invariant features across modalities do not always fail simultaneously, because different types of data corruption affect each modality in distinct ways.These invariant features can be recovered across modalities for robust fusion under data corruption.To this end, we explicitly decouple Camera/LiDAR BEV features into modality-invariant and modality-specific parts. It allows invariant features to compensate each other while mitigates the negative impact of a corrupted modality on the other.We then recouple these features into three experts to handle different types of data corruption, respectively, i.e., LiDAR, camera, and both.For each expert, we use modality-invariant features as robust information, while modality-specific features serve as a complement.Finally, we adaptively fuse the three experts to exact robust features for 3D object detection. For validation, we collect a benchmark with a large quantity of data corruption for LiDAR, camera, and both based on nuScenes. Our model is trained on clean nuScenes and tested on all types of data corruption. Our model consistently achieves the best accuracy on both corrupted and clean data compared to recent models.
- Abstract(参考訳): 鳥眼ビュー(BEV)を用いたマルチモーダル3Dオブジェクト検出は、ベンチマークにおいて望ましい進歩を遂げている。
それでも、LiDARのセンサー構成やカメラのシーン条件などのデータ破損により、実際の世界では精度が大幅に低下する可能性がある。
従来のモデルの1つの設計ボトルネックは、核融合中の多モードのBEV機能の密結合にあり、1つのモダリティまたは両方が破損した場合、システム全体の性能が低下する可能性がある。
そこで本研究では,データ破損によるロバストな3次元オブジェクト検出のためのマルチモーダルデコプル・リカップリングネットワークを提案する。
異なるモジュラリティは、いくつかの高レベル不変性を共有するのが一般的である。
データ破損の種類が異なるため、これらの不変性が常に同時にフェールするとは限らないことを我々は観察し、これらの不変性は、データ破損下での堅牢な融合のために、モダリティ全体にわたって復元することができる。
そして、これらの特徴を3つの専門家、すなわちLiDAR、カメラ、両方に分割して、それぞれ異なる種類のデータ破損を処理する。各専門家は、モダリティ不変の特徴を頑健な情報として使用し、一方、モダリティ特有な特徴は補体として機能する。
検証のために、我々は、LiDAR、カメラ、およびどちらもnuScenesに基づいて、大量のデータ破損のベンチマークを収集する。
私たちのモデルはクリーンなnuSceneでトレーニングされ、あらゆる種類のデータ破損でテストされます。
我々のモデルは、最近のモデルと比較して、腐敗したデータとクリーンなデータの両方において、常に最高の精度を達成する。
関連論文リスト
- Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - MultiCorrupt: A Multi-Modal Robustness Dataset and Benchmark of LiDAR-Camera Fusion for 3D Object Detection [5.462358595564476]
自動走行のためのマルチモーダル3Dオブジェクト検出モデルは、nuScenesのようなコンピュータビジョンベンチマークでは例外的な性能を示した。
しかし、密集したLiDAR点雲や精密に校正されたセンサーアレイへの依存は、現実世界のアプリケーションに課題をもたらす。
我々は,10種類の汚職に対してマルチモーダル3Dオブジェクト検出器の堅牢性を評価するためのベンチマークであるMultiCorruptを紹介する。
論文 参考訳(メタデータ) (2024-02-18T18:56:13Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - 3D-VField: Learning to Adversarially Deform Point Clouds for Robust 3D
Object Detection [111.32054128362427]
安全クリティカルな環境では、アウト・オブ・ディストリビューションとロングテールサンプルの堅牢性は、危険な問題を回避するのに不可欠である。
トレーニング中の変形点雲を考慮した3次元物体検出器の領域外データへの一般化を著しく改善する。
我々は、リアルに損傷を受けた稀な車の合成データセットであるCrashDを提案し、共有する。
論文 参考訳(メタデータ) (2021-12-09T08:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。