論文の概要: Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline
- arxiv url: http://arxiv.org/abs/2301.12511v1
- Date: Sun, 29 Jan 2023 18:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:38:32.543638
- Title: Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline
- Title(参考訳): Fast-BEV:高速で強力な鳥の知覚ベースライン
- Authors: Yangguang Li, Bin Huang, Zeren Chen, Yufeng Cui, Feng Liang, Mingzhu
Shen, Fenggang Liu, Enze Xie, Lu Sheng, Wanli Ouyang, Jing Shao
- Abstract要約: Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
- 参考スコア(独自算出の注目度): 85.41904025352513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, perception task based on Bird's-Eye View (BEV) representation has
drawn more and more attention, and BEV representation is promising as the
foundation for next-generation Autonomous Vehicle (AV) perception. However,
most existing BEV solutions either require considerable resources to execute
on-vehicle inference or suffer from modest performance. This paper proposes a
simple yet effective framework, termed Fast-BEV , which is capable of
performing faster BEV perception on the on-vehicle chips. Towards this goal, we
first empirically find that the BEV representation can be sufficiently powerful
without expensive transformer based transformation nor depth representation.
Our Fast-BEV consists of five parts, We novelly propose (1) a lightweight
deployment-friendly view transformation which fast transfers 2D image feature
to 3D voxel space, (2) an multi-scale image encoder which leverages multi-scale
information for better performance, (3) an efficient BEV encoder which is
particularly designed to speed up on-vehicle inference. We further introduce
(4) a strong data augmentation strategy for both image and BEV space to avoid
over-fitting, (5) a multi-frame feature fusion mechanism to leverage the
temporal information. Through experiments, on 2080Ti platform, our R50 model
can run 52.6 FPS with 47.3% NDS on the nuScenes validation set, exceeding the
41.3 FPS and 47.5% NDS of the BEVDepth-R50 model and 30.2 FPS and 45.7% NDS of
the BEVDet4D-R50 model. Our largest model (R101@900x1600) establishes a
competitive 53.5% NDS on the nuScenes validation set. We further develop a
benchmark with considerable accuracy and efficiency on current popular
on-vehicle chips. The code is released at:
https://github.com/Sense-GVT/Fast-BEV.
- Abstract(参考訳): 近年,Bird's-Eye View (BEV) の表現に基づく認識タスクがますます注目され,BEV の表現が次世代の自律走行車 (AV) の認識基盤として期待されている。
しかし、既存のbevソリューションの多くは車載推論を実行するのにかなりのリソースを必要とするか、ささやかな性能に苦しんでいる。
本稿では、車載チップ上で高速なBEV認識を実現するための、シンプルで効果的なフレームワークであるFast-BEVを提案する。
この目標に向けて、我々はまず、高価なトランスフォーマーベースの変換や深度表現なしに、BEV表現が十分に強力であることを示す。
我々は,(1)2d画像特徴を3dボクセル空間に高速転送する軽量なデプロイメントフレンドリなビュー変換,(2)マルチスケール情報を活用したマルチスケール画像エンコーダ,(3)車載推定の高速化を目的とした効率的なbevエンコーダを提案する。
さらに,画像空間とbev空間の両方に対する強固なデータ拡張戦略を導入し,オーバーフィッティングを回避し,(5)時間情報を活用するマルチフレーム特徴融合機構を導入する。
2080Tiプラットフォーム上では、我々のR50モデルは52.6 FPSと47.3% NDSをヌースシーンの検証セットで実行でき、BEVDepth-R50モデルの41.3 FPSと47.5% NDS、BEVDet4D-R50モデルの30.2 FPSと45.7% NDSを超える。
我々の最大のモデル(R101@900x1600)は、nuScenes検証セット上で53.5%のNDSを確立する。
我々はさらに,現在普及している車載用チップの精度と効率性を示すベンチマークを開発した。
コードは以下の通り:https://github.com/Sense-GVT/Fast-BEV。
関連論文リスト
- Robust Bird's Eye View Segmentation by Adapting DINOv2 [3.236198583140341]
低ランク適応(LoRA)を用いた視覚基礎モデルDINOv2をBEV推定に適用する。
我々の実験は、様々な汚職下でのBEV知覚の堅牢性を高めることを示した。
また,適応表現の有効性を,学習可能なパラメータの少ないこと,学習中の収束の高速化の観点から示す。
論文 参考訳(メタデータ) (2024-09-16T12:23:35Z) - Towards Efficient 3D Object Detection in Bird's-Eye-View Space for Autonomous Driving: A Convolutional-Only Approach [13.513005108086006]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。
BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。
実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文 参考訳(メタデータ) (2023-12-01T14:52:59Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based Relocalization [81.76044207714637]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - Fast-BEV: Towards Real-time On-vehicle Bird's-Eye View Perception [43.080075390854205]
純粋なカメラベースのBird's-Eye-View(BEV)は、高価なLidarセンサーを取り除き、経済的自律運転のための実現可能なソリューションとなる。
本稿では,車載チップ上でリアルタイムなBEV認識を実現する,Fast-BEVと呼ばれるシンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-19T03:58:48Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVDet: High-performance Multi-camera 3D Object Detection in
Bird-Eye-View [15.560366079077449]
我々は,2次元オブジェクト検出タスクにおける性能境界を押し上げるために,BEVDetパラダイムを貢献する。
BeVDetは,Bird-Eye-View (BEV) における3次元物体検出の原則に従って開発され,経路計画を手作業で行うことができる。
提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2021-12-22T10:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。