論文の概要: Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection
- arxiv url: http://arxiv.org/abs/2603.05623v1
- Date: Thu, 05 Mar 2026 19:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.394078
- Title: Post Fusion Bird's Eye View Feature Stabilization for Robust Multimodal 3D Detection
- Title(参考訳): 3次元ロバストなマルチモーダル検出のためのポストフュージョンバードのアイビュー特性の安定化
- Authors: Trung Tien Dong, Dev Thakkar, Arman Sargolzaei, Xiaomin Lin,
- Abstract要約: Post Fusion Stabilizer (PFS)は、既存の検出器の中間的なBEV表現で動作する軽量モジュールである。
PFSは、領域シフトの下で特徴統計を安定化し、センサ劣化による空間領域を抑圧し、残留補正によって弱められたキューを適応的に復元する。
PFSはいくつかの障害モードを実現し、特にカメラのドロップアウトロバスト性は+1.2%向上し、低照度性能は+4.4%向上した。
- 参考スコア(独自算出の注目度): 2.336163487623381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-LiDAR fusion is widely used in autonomous driving to enable accurate 3D object detection. However, bird's-eye view (BEV) fusion detectors can degrade significantly under domain shift and sensor failures, limiting reliability in real-world deployment. Existing robustness approaches often require modifying the fusion architecture or retraining specialized models, making them difficult to integrate into already deployed systems. We propose a Post Fusion Stabilizer (PFS), a lightweight module that operates on intermediate BEV representations of existing detectors and produces a refined feature map for the original detection head. The design stabilizes feature statistics under domain shift, suppresses spatial regions affected by sensor degradation, and adaptively restores weakened cues through residual correction. Designed as a near-identity transformation, PFS preserves performance while improving robustness under diverse camera and LiDAR corruptions. Evaluations on the nuScenes benchmark demonstrate that PFS achieves state-of-the-art results in several failure modes, notably improving camera dropout robustness by +1.2% and low-light performance by +4.4% mAP while maintaining a lightweight footprint of only 3.3 M parameters.
- Abstract(参考訳): カメラ-LiDAR融合は、正確な3Dオブジェクト検出を可能にするために、自律運転に広く利用されている。
しかし、鳥眼ビュー(BEV)核融合検出器はドメインシフトやセンサーの故障で著しく劣化し、実際の展開の信頼性が制限される。
既存のロバストなアプローチでは、しばしば融合アーキテクチャを変更したり、特別なモデルを再訓練する必要があるため、既にデプロイされたシステムに組み込むのが難しくなる。
本稿では,既存の検出器の中間的BEV表現で動作する軽量モジュールであるPost Fusion Stabilizer (PFS)を提案する。
この設計は、ドメインシフト時の特徴統計を安定化し、センサ劣化による空間領域を抑圧し、残留補正により弱められたキューを適応的に復元する。
ほぼ同一の変換として設計されたPFSは、様々なカメラやLiDARの破損下での堅牢性を改善しながら、性能を保っている。
nuScenesベンチマークの評価によると、PSFはいくつかの障害モードで、特に3.3Mパラメータの軽量なフットプリントを維持しながら、カメラのドロップアウトロバスト性を+1.2%改善し、低照度性能を+4.4%向上した。
関連論文リスト
- UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation [17.310791153991975]
本稿では,新しい不確実性を考慮した融合フレームワークUP-Fuseを紹介する。
生のLiDARデータはまずレンジビューに投影され、LiDARエンコーダによってエンコードされる。
カメラ機能は同時に抽出され、同じ共有空間に投影される。
論文 参考訳(メタデータ) (2026-02-22T21:34:29Z) - A Comparative Study of 3D Person Detection: Sensor Modalities and Robustness in Diverse Indoor and Outdoor Environments [5.89179309980335]
本研究では,カメラオンリー,LiDARオンリー,カメラ-LiDAR融合を用いた3次元人物検出の系統的評価を行う。
BEVDepth(カメラ)、PointPillars(LiDAR)、DAL(カメラ-LiDAR融合)の3つの代表モデルを比較した。
その結果,核融合によるアプローチは,特に挑戦的なシナリオにおいて,単一モダリティモデルよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2026-02-05T10:53:35Z) - Model Optimization for Multi-Camera 3D Detection and Tracking [13.756560739163362]
室内環境におけるマルチカメラの外部認識の重要性はますます高まっている。
クエリベースの3D検出・追跡フレームワークであるSparse4Dを評価した。
我々は,入力フレームレートの低減,学習後の量子化,WILDTRACKベンチマークへの転送,およびトランスフォーマーエンジンの混合精度の微調整について検討した。
論文 参考訳(メタデータ) (2026-01-31T01:51:30Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - RobuRCDet: Enhancing Robustness of Radar-Camera Fusion in Bird's Eye View for 3D Object Detection [68.99784784185019]
暗い照明や悪天候はカメラの性能を低下させる。
レーダーは騒音と位置のあいまいさに悩まされる。
本稿では,BEVの頑健な物体検出モデルであるRobuRCDetを提案する。
論文 参考訳(メタデータ) (2025-02-18T17:17:38Z) - Reliability-Driven LiDAR-Camera Fusion for Robust 3D Object Detection [0.0]
本稿では,鳥眼ビュー(BEV)空間で動作するLiDARカメラ融合フレームワークReliFusionを提案する。
ReliFusionは、Spatio-Temporal Feature Aggregation (STFA)モジュール、Reliabilityモジュール、Confidence-Weighted Mutual Cross-Attention (CW-MCA)モジュールという3つの重要なコンポーネントを統合している。
nuScenesデータセットの実験では、ReliFusionは最先端の手法よりも優れており、LiDARの視野に制限のあるシナリオにおいて、より優れた堅牢性と精度を実現している。
論文 参考訳(メタデータ) (2025-02-03T22:07:14Z) - Robo3D: Towards Robust and Reliable 3D Perception against Corruptions [58.306694836881235]
我々は,3次元検出器とセグメンタのロバスト性を,アウト・オブ・ディストリビューションのシナリオで検証するための,最初の総合的なベンチマークであるRobo3Dを紹介する。
気象条件の悪化,外乱,センサの故障などに起因する8種類の汚職について検討した。
本稿では,モデルレジリエンスを高めるための簡易なフレキシブルなボキセル化戦略とともに,密度に敏感なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:17Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。