論文の概要: Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2403.07372v1
- Date: Tue, 12 Mar 2024 07:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:31:59.188080
- Title: Eliminating Cross-modal Conflicts in BEV Space for LiDAR-Camera 3D
Object Detection
- Title(参考訳): LiDARカメラ3Dオブジェクト検出のためのBEV空間におけるクロスモーダル衝突の除去
- Authors: Jiahui Fu, Chen Gao, Zitian Wang, Lirong Yang, Xiaofei Wang, Beipeng
Mu, Si Liu
- Abstract要約: 最近の3Dオブジェクト検出器は、一般的にマルチセンサーデータを使用し、共有鳥眼ビュー(BEV)表現空間におけるマルチモーダル特徴を統一する。
従来手法では、モーダル間衝突のない融合型BEV機能の生成に制限があった。
本稿では,BEV空間における外因性/外因性衝突を明示的に除去する新しいECFusion法を提案する。
- 参考スコア(独自算出の注目度): 26.75994759483174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent 3D object detectors typically utilize multi-sensor data and unify
multi-modal features in the shared bird's-eye view (BEV) representation space.
However, our empirical findings indicate that previous methods have limitations
in generating fusion BEV features free from cross-modal conflicts. These
conflicts encompass extrinsic conflicts caused by BEV feature construction and
inherent conflicts stemming from heterogeneous sensor signals. Therefore, we
propose a novel Eliminating Conflicts Fusion (ECFusion) method to explicitly
eliminate the extrinsic/inherent conflicts in BEV space and produce improved
multi-modal BEV features. Specifically, we devise a Semantic-guided Flow-based
Alignment (SFA) module to resolve extrinsic conflicts via unifying spatial
distribution in BEV space before fusion. Moreover, we design a Dissolved Query
Recovering (DQR) mechanism to remedy inherent conflicts by preserving
objectness clues that are lost in the fusion BEV feature. In general, our
method maximizes the effective information utilization of each modality and
leverages inter-modal complementarity. Our method achieves state-of-the-art
performance in the highly competitive nuScenes 3D object detection dataset. The
code is released at https://github.com/fjhzhixi/ECFusion.
- Abstract(参考訳): 最近の3Dオブジェクト検出器は、一般的にマルチセンサーデータを使用し、共有鳥眼ビュー(BEV)表現空間におけるマルチモーダル特徴を統一する。
しかし, 実験結果から, 従来手法では, 相反のない融合型BEVの特徴を生じる限界があることが示唆された。
これらの衝突は、BEVの特徴的構成と、異種センサー信号から生じる固有の対立によって引き起こされる外在的な対立を含んでいる。
そこで本研究では,BEV空間における過渡矛盾を明示的に排除し,改良されたマルチモーダルBEV特性を実現するための新しいECFusion法を提案する。
具体的には、セマンティック誘導フローベースアライメント(SFA)モジュールを設計し、融合前のBEV空間における空間分布を統一することにより外乱を解決する。
さらに、融合BEV機能で失われるオブジェクト性手がかりを保存することにより、固有の競合を解消する解答クエリ検索(DQR)機構を設計する。
一般に,本手法は各モーダルの有効情報利用を最大化し,モーダル間の相補性を利用する。
本手法は,高度に競争力のあるnuScenes 3Dオブジェクト検出データセットにおける最先端性能を実現する。
コードはhttps://github.com/fjhzhixi/ecfusionでリリースされている。
関連論文リスト
- ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection [21.05923528672353]
異種モダリティのアライメントを高めるための新しいContrastAlignアプローチを提案する。
MAPは70.3%であり, nuScenes 検証セットでは BEVFusion を 1.8% 上回っている。
論文 参考訳(メタデータ) (2024-05-27T06:43:12Z) - IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection [130.394884412296]
我々は,イノベーティブなマルチモーダル融合フレームワークであるIS-Fusionを提案する。
インスタンスレベルのコンテキスト情報とシーンレベルのコンテキスト情報をキャプチャする。
Is-Fusionは基本的に、BEVシーンレベルの融合のみに焦点を当てた既存のアプローチとは異なる。
論文 参考訳(メタデータ) (2024-03-22T14:34:17Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - UniBEV: Multi-modal 3D Object Detection with Uniform BEV Encoders for Robustness against Missing Sensor Modalities [7.470926069132259]
本稿では、欠落したモダリティに対して堅牢性を実現するために、エンドツーエンドのマルチモーダル3Dオブジェクト検出フレームワークを提案する。
UniBEVはLiDARとカメラ入力に加えて、LiDARのみまたはカメラのみの入力でも再トレーニングなしで動作可能である。
UniBEVと最先端のBEVFusionとMetaBEVを、すべてのセンサー入力の組み合わせでnuScenesで比較する。
論文 参考訳(メタデータ) (2023-09-25T20:22:47Z) - Multi-Modal 3D Object Detection by Box Matching [109.43430123791684]
マルチモーダル3次元検出のためのボックスマッチング(FBMNet)による新しいフュージョンネットワークを提案する。
3Dオブジェクトと2Dオブジェクトの提案を学習することで、ROI特徴を組み合わせることで、検出のための融合を効果的に行うことができる。
論文 参考訳(メタデータ) (2023-05-12T18:08:51Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。