論文の概要: ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection
- arxiv url: http://arxiv.org/abs/2405.16873v3
- Date: Tue, 19 Aug 2025 08:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.300904
- Title: ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection
- Title(参考訳): ContrastAlign:マルチモーダル3次元物体検出のためのコントラスト学習によるロバストなBEV特徴アライメントを目指して
- Authors: Ziying Song, Hongyu Pan, Feiyang Jia, Yongchang Zhang, Lin Liu, Lei Yang, Shaoqing Xu, Peiliang Wu, Caiyan Jia, Zheng Zhang, Yadan Luo,
- Abstract要約: 異種モダリティのアライメントを高めるための新しいContrastAlignアプローチを提案する。
提案手法は,mAPが71.5%のSOTA性能を達成し,nuScenes val セットで GraphBEV を 1.4% 上回った。
- 参考スコア(独自算出の注目度): 21.53194355065541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of 3D object detection tasks, fusing heterogeneous features from LiDAR and camera sensors into a unified Bird's Eye View (BEV) representation is a widely adopted paradigm. However, existing methods often suffer from imprecise sensor calibration, leading to feature misalignment in LiDAR-camera BEV fusion. Moreover, such inaccuracies cause errors in depth estimation for the camera branch, aggravating misalignment between LiDAR and camera BEV features. In this work, we propose a novel ContrastAlign approach that utilizes contrastive learning to enhance the alignment of heterogeneous modalities, thereby improving the robustness of the fusion process. Specifically, our approach comprises three key components: (1) the L-Instance module, which extracts LiDAR instance features within the LiDAR BEV features; (2) the C-Instance module, which predicts camera instance features through Region of Interest (RoI) pooling on the camera BEV features; (3) the InstanceFusion module, which employs contrastive learning to generate consistent instance features across heFterogeneous modalities. Subsequently, we use graph matching to calculate the similarity between the neighboring camera instance features and the similarity instance features to complete the alignment of instance features. Our method achieves SOTA performance, with an mAP of 71.5%, surpassing GraphBEV by 1.4% on the nuScenes val set. Importantly, our method excels BEVFusion under conditions with spatial & temporal misalignment noise, improving mAP by 1.4% and 11.1% on nuScenes dataset. Notably, on the Argoverse2 dataset, ContrastAlign outperforms GraphBEV by 1.0% in mAP, indicating that the farther the distance, the more severe the feature misalignment and the more effective.
- Abstract(参考訳): 3Dオブジェクト検出タスクの分野では、LiDARとカメラセンサーの不均一な特徴を統一されたBird's Eye View(BEV)表現に融合することが広く採用されているパラダイムである。
しかし、既存の手法はしばしば不正確なセンサーキャリブレーションに悩まされ、LiDARカメラのBEV融合では不適応が生じる。
さらに、このような不正確さは、カメラブランチの深さ推定の誤差を引き起こし、LiDARとカメラBEVの特徴の相違を増大させる。
本研究では,異種モードのアライメントを向上し,融合プロセスの堅牢性を向上させるために,コントラストアライメントを用いた新しいコントラストアライメント手法を提案する。
具体的には,(1)LiDARのBEV機能内でLiDARのインスタンス機能を抽出するL-Instanceモジュール,(2)カメラのBEV機能上でのRerea of Interest(RoI)プーリングを通じてカメラのインスタンス機能を予測するC-Instanceモジュール,(3)HeFterogeneousModalities間で一貫したインスタンス機能を生成するためにコントラスト学習を利用するInstanceFusionモジュール,の3つの重要なコンポーネントから構成される。
次に、グラフマッチングを用いて、隣接するカメラインスタンス機能と類似度インスタンス機能との類似度を計算し、インスタンス機能のアライメントを完成させる。
提案手法は,mAPが71.5%のSOTA性能を達成し,nuScenes val セットで GraphBEV を 1.4% 上回った。
重要なことは、空間的・時間的不整合雑音のある条件下でのBEVFusionを抽出し、nuScenesデータセット上でmAPを1.4%改善し、11.1%改善する。
特にArgoverse2データセットでは、ContrastAlignがGraphBEVを1.0%のmAPで上回り、距離が遠くなるほど、特徴の不一致が厳しくなり、より効果的であることが示されている。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection [18.285299184361598]
LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。
DDFH(Dis Distribution Discrepancy and Feature Heterogeneity)と呼ばれる新しい効果的なアクティブラーニング手法を提案する。
幾何学的特徴とモデル埋め込みを同時に考慮し、インスタンスレベルとフレームレベルの両方の観点から情報を評価する。
論文 参考訳(メタデータ) (2024-09-09T08:26:11Z) - GraphBEV: Towards Robust BEV Feature Alignment for Multi-Modal 3D Object Detection [18.21607858133675]
We propose a robust fusion framework called Graph BEV to integrate LiDAR and camera BEV features。
我々のフレームワークは、悪臭のある条件下で、BEV Fusionを8.3%上回っている。
論文 参考訳(メタデータ) (2024-03-18T15:00:38Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - LiDAR-Camera Panoptic Segmentation via Geometry-Consistent and
Semantic-Aware Alignment [63.83894701779067]
我々は,最初のLiDAR-Camera Panoptic NetworkであるLCPSを提案する。
提案手法では,LiDAR-Camera融合を3段階に分けて行う。
我々の融合戦略は、NuScenesデータセット上のLiDARのみのベースラインに対して、約6.9%のPQ性能を改善する。
論文 参考訳(メタデータ) (2023-08-03T10:57:58Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object
Detection [46.03951171790736]
3Dオブジェクト検出のための自動機能融合戦略であるtextitAutoAlignを提案する。
提案手法は,KITTIデータセットとnuScenesデータセットの2.3mAPと7.0mAPの改善につながることを示す。
論文 参考訳(メタデータ) (2022-01-17T16:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。