論文の概要: Fast-BEV: Towards Real-time On-vehicle Bird's-Eye View Perception
- arxiv url: http://arxiv.org/abs/2301.07870v1
- Date: Thu, 19 Jan 2023 03:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 15:45:03.584702
- Title: Fast-BEV: Towards Real-time On-vehicle Bird's-Eye View Perception
- Title(参考訳): Fast-BEV: リアルタイム車載鳥の視点認識を目指す
- Authors: Bin Huang, Yangguang Li, Enze Xie, Feng Liang, Luya Wang, Mingzhu
Shen, Fenggang Liu, Tianqi Wang, Ping Luo, Jing Shao
- Abstract要約: 純粋なカメラベースのBird's-Eye-View(BEV)は、高価なLidarセンサーを取り除き、経済的自律運転のための実現可能なソリューションとなる。
本稿では,車載チップ上でリアルタイムなBEV認識を実現する,Fast-BEVと呼ばれるシンプルで効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.080075390854205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the pure camera-based Bird's-Eye-View (BEV) perception removes
expensive Lidar sensors, making it a feasible solution for economical
autonomous driving. However, most existing BEV solutions either suffer from
modest performance or require considerable resources to execute on-vehicle
inference. This paper proposes a simple yet effective framework, termed
Fast-BEV, which is capable of performing real-time BEV perception on the
on-vehicle chips. Towards this goal, we first empirically find that the BEV
representation can be sufficiently powerful without expensive view
transformation or depth representation. Starting from M2BEV baseline, we
further introduce (1) a strong data augmentation strategy for both image and
BEV space to avoid over-fitting (2) a multi-frame feature fusion mechanism to
leverage the temporal information (3) an optimized deployment-friendly view
transformation to speed up the inference. Through experiments, we show Fast-BEV
model family achieves considerable accuracy and efficiency on edge. In
particular, our M1 model (R18@256x704) can run over 50FPS on the Tesla T4
platform, with 47.0% NDS on the nuScenes validation set. Our largest model
(R101@900x1600) establishes a new state-of-the-art 53.5% NDS on the nuScenes
validation set. The code is released at: https://github.com/Sense-GVT/Fast-BEV.
- Abstract(参考訳): 最近、純粋なカメラベースのBird's-Eye-View(BEV)の認識は、高価なLidarセンサーを取り除き、経済的自律運転のための実現可能なソリューションとなっている。
しかしながら、既存のBEVソリューションのほとんどは、控えめなパフォーマンスに苦しむか、車載推論を実行するのにかなりのリソースを必要とする。
本稿では,車載チップ上でリアルタイムなBEV認識を実現する,Fast-BEVと呼ばれるシンプルで効果的なフレームワークを提案する。
この目標に向けて、我々はまず、高価なビュー変換や深度表現なしに、BEV表現が十分に強力であることを実証的に見出した。
M2BEVベースラインを出発点として,(1)画像とBEV空間の両方に強力なデータ拡張戦略を導入し,過適合を回避すること(2)時間的情報を活用するマルチフレーム機能融合機構,(3)推論を高速化するためのデプロイメントフレンドリなビュー変換を提案する。
実験により,Fast-BEVモデルファミリはエッジ上でかなりの精度と効率を達成することを示した。
特に、我々のM1モデル(R18@256x704)は、Tesla T4プラットフォーム上で50FPS以上、nuScenesバリデーションセット上で47.0%のNDSを実行できる。
我々の最大のモデル(R101@900x1600)は、nuScenesバリデーションセット上で新しい最先端の53.5%のNDSを確立する。
コードは以下の通り:https://github.com/Sense-GVT/Fast-BEV。
関連論文リスト
- Towards Efficient 3D Object Detection in Bird's-Eye-View Space for
Autonomous Driving: A Convolutional-Only Approach [13.962625803332823]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。
BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。
実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文 参考訳(メタデータ) (2023-12-01T14:52:59Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based
Relocalization [86.63465798307728]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - VoxelFormer: Bird's-Eye-View Feature Generation based on Dual-view
Attention for Multi-view 3D Object Detection [47.926010021559314]
変圧器を用いた検出器は2次元視覚知覚タスクにおいて顕著な性能を示した。
しかし、多視点3Dオブジェクト検出におけるそれらの性能は、畳み込みニューラルネットワークに基づく検出器の最先端(SOTA)よりも劣っている。
本稿では,BEVとカメラの両方から注目重みを生成する,新しいBEV特徴生成手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T15:00:36Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [85.41904025352513]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - PersDet: Monocular 3D Detection in Perspective Bird's-Eye-View [26.264139933212892]
Bird's-Eye-View (BEV)は、自律走行とロボット工学のための他の3D検出器よりも優れている。
画像特徴をBEVに変換するには、特別なオペレーターが特徴サンプリングを行う必要がある。
特徴サンプリングを必要としない新しいBEV表現であるBEVの視点で物体を検出することを提案する。
論文 参考訳(メタデータ) (2022-08-19T15:19:20Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。