論文の概要: BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation
- arxiv url: http://arxiv.org/abs/2303.17099v1
- Date: Thu, 30 Mar 2023 02:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:44:10.991734
- Title: BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation
- Title(参考訳): BEVFusion4D:Bird's-Eye-View下でのLiDAR-Camera Fusionの学習
- Authors: Hongxiang Cai, Zeyuan Zhang, Zhenyu Zhou, Ziyin Li, Wenbo Ding, Jiuhua
Zhao
- Abstract要約: 本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
- 参考スコア(独自算出の注目度): 14.606324706328106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating LiDAR and Camera information into Bird's-Eye-View (BEV) has
become an essential topic for 3D object detection in autonomous driving.
Existing methods mostly adopt an independent dual-branch framework to generate
LiDAR and camera BEV, then perform an adaptive modality fusion. Since point
clouds provide more accurate localization and geometry information, they could
serve as a reliable spatial prior to acquiring relevant semantic information
from the images. Therefore, we design a LiDAR-Guided View Transformer (LGVT) to
effectively obtain the camera representation in BEV space and thus benefit the
whole dual-branch fusion system. LGVT takes camera BEV as the primitive
semantic query, repeatedly leveraging the spatial cue of LiDAR BEV for
extracting image features across multiple camera views. Moreover, we extend our
framework into the temporal domain with our proposed Temporal Deformable
Alignment (TDA) module, which aims to aggregate BEV features from multiple
historical frames. Including these two modules, our framework dubbed
BEVFusion4D achieves state-of-the-art results in 3D object detection, with
72.0% mAP and 73.5% NDS on the nuScenes validation set, and 73.3% mAP and 74.7%
NDS on nuScenes test set, respectively.
- Abstract(参考訳): LiDARとカメラ情報をBird's-Eye-View (BEV)に統合することは、自動運転における3Dオブジェクト検出にとって重要なトピックとなっている。
既存の手法は主に、LiDARとカメラBEVを生成するために独立したデュアルブランチフレームワークを採用し、適応的なモダリティ融合を実行する。
点雲はより正確なローカライズと幾何情報を提供するので、画像から関連する意味情報を取得する前に信頼できる空間として機能することができる。
そこで我々は,BEV空間におけるカメラ表現を効果的に得るために,LiDAR-Guided View Transformer (LGVT) を設計した。
LGVTは、カメラBEVをプリミティブなセマンティッククエリとして、LiDAR BEVの空間的キューを活用して、複数のカメラビューで画像特徴を抽出する。
さらに,複数の歴史的フレームからBEV特徴を集約することを目的として,提案するTDAモジュールにより,我々のフレームワークを時間領域に拡張する。
これら2つのモジュールを含め、BEVFusion4Dと呼ばれるフレームワークは、nuScenesの検証セットで72.0%のmAPと73.5%のNDS、nuScenesのテストセットで73.3%のmAPと74.7%のNDSを持つ3Dオブジェクト検出の最先端結果を達成する。
関連論文リスト
- SimpleBEV: Improved LiDAR-Camera Fusion Architecture for 3D Object Detection [15.551625571158056]
高精度な3次元物体検出のためのLiDARカメラ融合フレームワークSimpleBEVを提案する。
提案手法は, nuScenesデータセット上で77.6%のNDS精度を実現し, 3次元物体検出トラックにおける優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-08T02:51:39Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye
View Representation for 3D Object Detection [14.706717531900708]
LiDARとカメラは、自律運転における3Dオブジェクト検出に不可欠な2つのセンサーである。
近年の手法では,LiDAR点雲にカメラ機能を持たせた点レベルの融合に焦点が当てられている。
We present SemanticBEVFusion to deep fuse camera features with LiDAR features in an unified BEV representation。
論文 参考訳(メタデータ) (2022-12-09T05:48:58Z) - MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth
Seeds for 3D Object Detection [89.26380781863665]
自律運転システムにおける高精度で信頼性の高い3次元物体検出を実現するためには,LiDARとカメラ情報の融合が不可欠である。
近年のアプローチでは、2次元カメラ画像の3次元空間への昇華点によるカメラ特徴のセマンティックな密度の探索が試みられている。
マルチグラニュラリティLiDARとカメラ機能とのマルチスケールなプログレッシブインタラクションに焦点を当てた,新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T12:29:29Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z) - BEVDet: High-performance Multi-camera 3D Object Detection in
Bird-Eye-View [15.560366079077449]
我々は,2次元オブジェクト検出タスクにおける性能境界を押し上げるために,BEVDetパラダイムを貢献する。
BeVDetは,Bird-Eye-View (BEV) における3次元物体検出の原則に従って開発され,経路計画を手作業で行うことができる。
提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2021-12-22T10:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。