論文の概要: ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop
- arxiv url: http://arxiv.org/abs/2603.02481v1
- Date: Tue, 03 Mar 2026 00:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.583906
- Title: ModalPatch: A Plug-and-Play Module for Robust Multi-Modal 3D Object Detection under Modality Drop
- Title(参考訳): ModalPatch: モダリティドロップによるロバストなマルチモーダル3Dオブジェクト検出のためのプラグイン・アンド・プレイモジュール
- Authors: Shuangzhi Li, Lei Ma, Xingyu Li,
- Abstract要約: 任意のモダリティ・ドロップシナリオ下でロバストな検出を可能にするために設計されたプラグイン・アンド・プレイモジュールであるModalPatchを紹介する。
技術的には、ModalPatchはセンサーデータの時間的特性を知覚的連続性に利用し、履歴ベースのモジュールを使用して、過渡的に利用できない機能の予測と補償を行う。
広範囲にわたる実験により、ModalPatchは様々なモダリティ・ドロップ条件下で、最先端の3Dオブジェクト検出器の堅牢性と精度を一貫して向上させることが示された。
- 参考スコア(独自算出の注目度): 23.33231492677983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal 3D object detection is pivotal for autonomous driving, integrating complementary sensors like LiDAR and cameras. However, its real-world reliability is challenged by transient data interruptions and missing, where modalities can momentarily drop due to hardware glitches, adverse weather, or occlusions. This poses a critical risk, especially during a simultaneous modality drop, where the vehicle is momentarily blind. To address this problem, we introduce ModalPatch, the first plug-and-play module designed to enable robust detection under arbitrary modality-drop scenarios. Without requiring architectural changes or retraining, ModalPatch can be seamlessly integrated into diverse detection frameworks. Technically, ModalPatch leverages the temporal nature of sensor data for perceptual continuity, using a history-based module to predict and compensate for transiently unavailable features. To improve the fidelity of the predicted features, we further introduce an uncertainty-guided cross-modality fusion strategy that dynamically estimates the reliability of compensated features, suppressing biased signals while reinforcing informative ones. Extensive experiments show that ModalPatch consistently enhances both robustness and accuracy of state-of-the-art 3D object detectors under diverse modality-drop conditions.
- Abstract(参考訳): マルチモーダルな3Dオブジェクト検出は、LiDARやカメラのような補完的なセンサーを統合して、自律運転に欠かせない。
しかし、その現実世界の信頼性は、過渡的なデータ中断と欠落によって挑戦され、ハードウェアの不具合、悪天候、または閉塞により、モダリティが一時的に低下する可能性がある。
これは、特に車両が一時的に盲目となる同時モダリティ降下時に、重大なリスクを引き起こす。
この問題に対処するために、任意のモダリティ・ドロップシナリオ下でロバストな検出を可能にするために設計された最初のプラグイン・アンド・プレイモジュールであるModalPatchを紹介する。
アーキテクチャの変更や再トレーニングを必要とせずに、ModalPatchはさまざまな検出フレームワークにシームレスに統合できる。
技術的には、ModalPatchはセンサーデータの時間的特性を知覚的連続性に利用し、履歴ベースのモジュールを使用して、過渡的に利用できない機能の予測と補償を行う。
予測された特徴の忠実性を改善するために,補償特徴の信頼性を動的に推定する不確実性誘導型クロスモーダリティ融合戦略を導入する。
広範囲にわたる実験により、ModalPatchは様々なモダリティ・ドロップ条件下で、最先端の3Dオブジェクト検出器の堅牢性と精度を一貫して向上させることが示された。
関連論文リスト
- Reliability-Driven LiDAR-Camera Fusion for Robust 3D Object Detection [0.0]
本稿では,鳥眼ビュー(BEV)空間で動作するLiDARカメラ融合フレームワークReliFusionを提案する。
ReliFusionは、Spatio-Temporal Feature Aggregation (STFA)モジュール、Reliabilityモジュール、Confidence-Weighted Mutual Cross-Attention (CW-MCA)モジュールという3つの重要なコンポーネントを統合している。
nuScenesデータセットの実験では、ReliFusionは最先端の手法よりも優れており、LiDARの視野に制限のあるシナリオにおいて、より優れた堅牢性と精度を実現している。
論文 参考訳(メタデータ) (2025-02-03T22:07:14Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - MultiCorrupt: A Multi-Modal Robustness Dataset and Benchmark of LiDAR-Camera Fusion for 3D Object Detection [5.462358595564476]
自動走行のためのマルチモーダル3Dオブジェクト検出モデルは、nuScenesのようなコンピュータビジョンベンチマークでは例外的な性能を示した。
しかし、密集したLiDAR点雲や精密に校正されたセンサーアレイへの依存は、現実世界のアプリケーションに課題をもたらす。
我々は,10種類の汚職に対してマルチモーダル3Dオブジェクト検出器の堅牢性を評価するためのベンチマークであるMultiCorruptを紹介する。
論文 参考訳(メタデータ) (2024-02-18T18:56:13Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - A Multimodal Sensor Fusion Framework Robust to Missing Modalities for
Person Recognition [2.436681150766912]
本稿では,オーディオ,可視,サーマルカメラを用いた新しい3モーダルセンサ融合フレームワークを提案する。
AVTNetと呼ばれる新しい潜伏埋め込みフレームワークは、複数の潜伏埋め込みを学ぶために提案されている。
ベースラインアルゴリズムとの比較分析により,提案手法は認識精度を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2022-10-20T02:39:48Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。