論文の概要: BEVDet: High-performance Multi-camera 3D Object Detection in
Bird-Eye-View
- arxiv url: http://arxiv.org/abs/2112.11790v1
- Date: Wed, 22 Dec 2021 10:48:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:25:39.737353
- Title: BEVDet: High-performance Multi-camera 3D Object Detection in
Bird-Eye-View
- Title(参考訳): BEVDet:バードアイビューにおける高性能マルチカメラ3Dオブジェクト検出
- Authors: Junjie Huang, Guan Huang, Zheng Zhu, and Dalong Du
- Abstract要約: 我々は,2次元オブジェクト検出タスクにおける性能境界を押し上げるために,BEVDetパラダイムを貢献する。
BeVDetは,Bird-Eye-View (BEV) における3次元物体検出の原則に従って開発され,経路計画を手作業で行うことができる。
提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
- 参考スコア(独自算出の注目度): 15.560366079077449
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous driving perceives the surrounding environment for decision making,
which is one of the most complicated scenes for visual perception. The great
power of paradigm innovation in solving the 2D object detection task inspires
us to seek an elegant, feasible, and scalable paradigm for pushing the
performance boundary in this area. To this end, we contribute the BEVDet
paradigm in this paper. BEVDet is developed by following the principle of
detecting the 3D objects in Bird-Eye-View (BEV), where route planning can be
handily performed. In this paradigm, four kinds of modules are conducted in
succession with different roles: an image-view encoder for encoding feature in
image view, a view transformer for feature transformation from image view to
BEV, a BEV encoder for further encoding feature in BEV, and a task-specific
head for predicting the targets in BEV. We merely reuse the existing modules
for constructing BEVDet and make it feasible for multi-camera 3D object
detection by constructing an exclusive data augmentation strategy. The proposed
paradigm works well in multi-camera 3D object detection and offers a good
trade-off between computing budget and performance. BEVDet with 704x256 (1/8 of
the competitors) image size scores 29.4% mAP and 38.4% NDS on the nuScenes val
set, which is comparable with FCOS3D (i.e., 2008.2 GFLOPs, 1.7 FPS, 29.5% mAP
and 37.2% NDS), while requires merely 12% computing budget of 239.4 GFLOPs and
runs 4.3 times faster. Scaling up the input size to 1408x512, BEVDet scores
34.9% mAP, and 41.7% NDS, which requires just 601.4 GFLOPs and significantly
suppresses FCOS3D by 5.4% mAP and 4.5% NDS. The superior performance of BEVDet
tells the magic of paradigm innovation.
- Abstract(参考訳): 自律運転は、視覚知覚の最も複雑な場面の1つである、意思決定のための周囲の環境を知覚する。
2Dオブジェクト検出タスクの解決におけるパラダイム革新の大きな力は、この分野のパフォーマンス境界を押し上げるためのエレガントで実現可能なスケーラブルなパラダイムを求めるきっかけになります。
この目的のために,本稿では,BEVDetパラダイムをコントリビュートする。
bevdetはバードアイビュー(bev)で3dオブジェクトを検出する原則に従って開発され、経路計画が手軽に行える。
本パラダイムでは、画像ビューにおける特徴を符号化する画像ビューエンコーダ、画像ビューからBEVへの特徴変換を行うビュートランスフォーマー、BEVにおけるさらなる特徴を符号化するBEVエンコーダ、BEVにおける目標を予測するタスク固有ヘッドの4種類のモジュールを、異なる役割で順次実行する。
BEVDetを構築するために既存のモジュールを再利用するだけで、排他的なデータ拡張戦略を構築することで、マルチカメラの3Dオブジェクト検出を可能にする。
提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
bevdet は 704x256 (競合他社の1/8) で、画像サイズは 29.4% のマップと 38.4% の nds で、これは fcos3d (2008,2 gflops, 1.7 fps, 29.5% map, 37.2% nds) に匹敵するが、12% の計算予算が 239.4 gflops で、4.3 倍高速である。
入力サイズを1408x512にスケールアップすると、BEVDetのスコアは34.9% mAP、41.7% NDSであり、わずか601.4 GFLOPsでFCOS3Dを5.4% mAPと4.5% NDSで大幅に抑制する。
BEVDetの優れたパフォーマンスは、パラダイムイノベーションの魔法を物語っている。
関連論文リスト
- WidthFormer: Toward Efficient Transformer-based BEV View Transformation [23.055953867959744]
WidthFormerは計算効率が高く、堅牢で、デプロイに特別なエンジニアリング作業を必要としない。
本稿では,3次元幾何情報を正確にカプセル化できる新しい3次元位置符号化機構を提案する。
私たちのモデルは極めて効率的です。例えば、256タイムの704ドルの入力イメージを使用すると、NVIDIA 3090 GPUとHorizon Journey-5ソリューションで1.5ミリ秒と2.8ミリ秒のレイテンシを実現します。
論文 参考訳(メタデータ) (2024-01-08T11:50:23Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation [116.6111047218081]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection [14.11339105810819]
BEVDet4Dは空間のみの3次元空間から時空間の4次元空間へ拡張性のあるBEVDetパラダイムを持ち上げるために提案されている。
我々は,BEVDet4Dに頑健な一般化性能を持たせるエゴモーションと時間の要因を除去し,速度学習タスクを簡素化する。
課題ベンチマークnuScenesでは,BEVDet4D-Baseと呼ばれる高性能な構成で51.5% NDSを記録した。
論文 参考訳(メタデータ) (2022-03-31T14:21:19Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。