論文の概要: QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection
- arxiv url: http://arxiv.org/abs/2308.10515v1
- Date: Mon, 21 Aug 2023 07:06:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:37:04.407675
- Title: QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection
- Title(参考訳): QD-BEV : 多視点3Dオブジェクト検出のための量子化対応ビュー誘導蒸留
- Authors: Yifan Zhang, Zhen Dong, Huanrui Yang, Ming Lu, Cheng-Ching Tseng, Yuan
Du, Kurt Keutzer, Li Du, Shanghang Zhang
- Abstract要約: BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
- 参考スコア(独自算出の注目度): 57.019527599167255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view 3D detection based on BEV (bird-eye-view) has recently achieved
significant improvements. However, the huge memory consumption of
state-of-the-art models makes it hard to deploy them on vehicles, and the
non-trivial latency will affect the real-time perception of streaming
applications. Despite the wide application of quantization to lighten models,
we show in our paper that directly applying quantization in BEV tasks will 1)
make the training unstable, and 2) lead to intolerable performance degradation.
To solve these issues, our method QD-BEV enables a novel view-guided
distillation (VGD) objective, which can stabilize the quantization-aware
training (QAT) while enhancing the model performance by leveraging both image
features and BEV features. Our experiments show that QD-BEV achieves similar or
even better accuracy than previous methods with significant efficiency gains.
On the nuScenes datasets, the 4-bit weight and 6-bit activation quantized
QD-BEV-Tiny model achieves 37.2% NDS with only 15.8 MB model size,
outperforming BevFormer-Tiny by 1.8% with an 8x model compression. On the Small
and Base variants, QD-BEV models also perform superbly and achieve 47.9% NDS
(28.2 MB) and 50.9% NDS (32.9 MB), respectively.
- Abstract(参考訳): BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
しかし、最先端のモデルの膨大なメモリ消費は、車両へのデプロイを難しくし、非自明なレイテンシはストリーミングアプリケーションのリアルタイム知覚に影響を与えるだろう。
モデルへの量子化の広範な適用にもかかわらず、我々の論文では、BEVタスクで直接量子化を適用することが示される。
1) 訓練を不安定にし、
2) 耐え難い性能低下につながる。
これらの問題を解決するため,本手法では,画像特徴量とbev特徴の両方を活用してモデル性能を高めつつ,量子化アウェアトレーニング(qat)を安定化できる新しいビューガイド蒸留(vgd)目的を実現する。
実験の結果,QD-BEVは従来手法と同等あるいはそれ以上の精度で効率が向上した。
nuScenesデータセットでは、4ビットの重みと6ビットのアクティベートされたQD-BEV-Tinyモデルは、わずか15.8MBのモデルサイズで37.2%のNDSを達成する。
小型モデルとベースモデルでは、QD-BEVモデルはそれぞれ47.9% NDS (28.2 MB)と50.9% NDS (32.9 MB)を達成している。
関連論文リスト
- Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Towards Efficient 3D Object Detection in Bird's-Eye-View Space for
Autonomous Driving: A Convolutional-Only Approach [13.962625803332823]
BEVENetと呼ばれるBEVベースの効率的な3D検出フレームワークを提案する。
BEVENetは、NuScenesチャレンジに対する現代の最先端(SOTA)アプローチよりも3$times$高速である。
実験の結果,BEVENetは現代の最先端(SOTA)アプローチよりも3$times$高速であることがわかった。
論文 参考訳(メタデータ) (2023-12-01T14:52:59Z) - U-BEV: Height-aware Bird's-Eye-View Segmentation and Neural Map-based
Relocalization [86.63465798307728]
GPS受信が不十分な場合やセンサベースのローカライゼーションが失敗する場合、インテリジェントな車両には再ローカライゼーションが不可欠である。
Bird's-Eye-View (BEV)セグメンテーションの最近の進歩は、局所的な景観の正確な推定を可能にする。
本稿では,U-NetにインスパイアされたアーキテクチャであるU-BEVについて述べる。
論文 参考訳(メタデータ) (2023-10-20T18:57:38Z) - MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation [104.12419434114365]
現実世界のアプリケーションでは、センサの破損や故障がパフォーマンスの低下につながります。
極端に現実世界の環境に対処するための,MetaBEVと呼ばれる堅牢なフレームワークを提案する。
MetaBEVは、完全なモダリティと腐敗したモダリティの両方に大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-19T16:37:17Z) - DiffBEV: Conditional Diffusion Model for Bird's Eye View Perception [14.968177102647783]
そこで我々は,より包括的なBEV表現を生成するために拡散モデルの可能性を活用するために,DiffBEVというエンドツーエンドフレームワークを提案する。
実際に,粗いサンプルを識別し,意味的特徴を洗練する拡散モデルの訓練を指導する3種類の条件を設計する。
DiffBEV が nuScenes データセット上で 25.9% mIoU を達成することを示す。
論文 参考訳(メタデータ) (2023-03-15T02:42:48Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - Fast-BEV: Towards Real-time On-vehicle Bird's-Eye View Perception [43.080075390854205]
純粋なカメラベースのBird's-Eye-View(BEV)は、高価なLidarセンサーを取り除き、経済的自律運転のための実現可能なソリューションとなる。
本稿では,車載チップ上でリアルタイムなBEV認識を実現する,Fast-BEVと呼ばれるシンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-19T03:58:48Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVDet: High-performance Multi-camera 3D Object Detection in
Bird-Eye-View [15.560366079077449]
我々は,2次元オブジェクト検出タスクにおける性能境界を押し上げるために,BEVDetパラダイムを貢献する。
BeVDetは,Bird-Eye-View (BEV) における3次元物体検出の原則に従って開発され,経路計画を手作業で行うことができる。
提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2021-12-22T10:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。