論文の概要: ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2405.16873v1
- Date: Mon, 27 May 2024 06:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:50:47.264735
- Title: ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection
- Title(参考訳): ContrastAlign:マルチモーダル3次元物体検出のためのコントラスト学習によるロバストなBEV特徴アライメントを目指して
- Authors: Ziying Song, Feiyang Jia, Hongyu Pan, Yadan Luo, Caiyan Jia, Guoxin Zhang, Lin Liu, Yang Ji, Lei Yang, Li Wang,
- Abstract要約: 異種モダリティのアライメントを高めるための新しいContrastAlignアプローチを提案する。
MAPは70.3%であり, nuScenes 検証セットでは BEVFusion を 1.8% 上回っている。
- 参考スコア(独自算出の注目度): 21.05923528672353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of 3D object detection tasks, fusing heterogeneous features from LiDAR and camera sensors into a unified Bird's Eye View (BEV) representation is a widely adopted paradigm. However, existing methods are often compromised by imprecise sensor calibration, resulting in feature misalignment in LiDAR-camera BEV fusion. Moreover, such inaccuracies result in errors in depth estimation for the camera branch, ultimately causing misalignment between LiDAR and camera BEV features. In this work, we propose a novel ContrastAlign approach that utilizes contrastive learning to enhance the alignment of heterogeneous modalities, thereby improving the robustness of the fusion process. Specifically, our approach includes the L-Instance module, which directly outputs LiDAR instance features within LiDAR BEV features. Then, we introduce the C-Instance module, which predicts camera instance features through RoI (Region of Interest) pooling on the camera BEV features. We propose the InstanceFusion module, which utilizes contrastive learning to generate similar instance features across heterogeneous modalities. We then use graph matching to calculate the similarity between the neighboring camera instance features and the similarity instance features to complete the alignment of instance features. Our method achieves state-of-the-art performance, with an mAP of 70.3%, surpassing BEVFusion by 1.8% on the nuScenes validation set. Importantly, our method outperforms BEVFusion by 7.3% under conditions with misalignment noise.
- Abstract(参考訳): 3Dオブジェクト検出タスクの分野では、LiDARとカメラセンサーの不均一な特徴を統一されたBird's Eye View(BEV)表現に融合することが広く採用されているパラダイムである。
しかし、既存の手法は、しばしば不正確なセンサーキャリブレーションによって妥協され、LiDARカメラのBEV融合における特徴的不一致をもたらす。
さらに、このような不正確さは、カメラブランチの深さ推定の誤差をもたらし、最終的にLiDARとカメラBEVの特徴の不一致を引き起こす。
本研究では,異種モードのアライメントを向上し,融合プロセスの堅牢性を向上させるために,コントラストアライメントを用いた新しいコントラストアライメント手法を提案する。
具体的には、LiDAR BEV機能内で直接LiDARインスタンス機能を出力するL-Instanceモジュールを含む。
次に,カメラBEV機能上でのRoI(Region of Interest)プールによるカメラインスタンス機能の予測を行うC-Instanceモジュールを紹介する。
異種多様度にまたがる類似のインスタンス機能を生成するために,コントラスト学習を利用するインスタンスフュージョンモジュールを提案する。
次に、グラフマッチングを使用して、隣接するカメラインスタンス機能と類似度インスタンス機能との類似度を計算し、インスタンス機能のアライメントを完了します。
MAPは70.3%であり, nuScenes 検証セットでは BEVFusion を 1.8% 上回っている。
BEVFusionを7.3%改善し,騒音の悪さを解消した。
関連論文リスト
- Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection [18.285299184361598]
LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。
DDFH(Dis Distribution Discrepancy and Feature Heterogeneity)と呼ばれる新しい効果的なアクティブラーニング手法を提案する。
幾何学的特徴とモデル埋め込みを同時に考慮し、インスタンスレベルとフレームレベルの両方の観点から情報を評価する。
論文 参考訳(メタデータ) (2024-09-09T08:26:11Z) - GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection [18.21607858133675]
We propose a robust fusion framework called Graph BEV to integrate LiDAR and camera BEV features。
我々のフレームワークは、悪臭のある条件下で、BEV Fusionを8.3%上回っている。
論文 参考訳(メタデータ) (2024-03-18T15:00:38Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object
Detection [46.03951171790736]
3Dオブジェクト検出のための自動機能融合戦略であるtextitAutoAlignを提案する。
提案手法は,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善につながることを示す。
論文 参考訳(メタデータ) (2022-01-17T16:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。