論文の概要: Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2502.15488v2
- Date: Tue, 11 Mar 2025 15:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:28.027442
- Title: Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection
- Title(参考訳): Q-PETR:マルチビュー3次元物体検出のための量子認識位置埋め込み変換
- Authors: Jiangyong Yu, Changyong Shu, Dawei Yang, Sifan Zhou, Zichen Yu, Xing Hu, Yan Chen,
- Abstract要約: PETRフレームワークの重要なコンポーネントを再設計する量子化対応位置埋め込み変換であるQ-PETRを提案する。
Q-PETRは、標準的な8ビットのトレーニング後量子化の下で、1%未満の性能低下を伴う浮動小数点性能を維持している。
FP32と比較して、Q-PETRは2倍のスピードアップを実現し、メモリ使用量を3倍削減する。
- 参考スコア(独自算出の注目度): 9.961425621432474
- License:
- Abstract: Camera-based multi-view 3D detection has emerged as an attractive solution for autonomous driving due to its low cost and broad applicability. However, despite the strong performance of PETR-based methods in 3D perception benchmarks, their direct INT8 quantization for onboard deployment leads to drastic accuracy drops-up to 58.2% in mAP and 36.9% in NDS on the NuScenes dataset. In this work, we propose Q-PETR, a quantization-aware position embedding transformation that re-engineers key components of the PETR framework to reconcile the discrepancy between the dynamic ranges of positional encodings and image features, and to adapt the cross-attention mechanism for low-bit inference. By redesigning the positional encoding module and introducing an adaptive quantization strategy, Q-PETR maintains floating-point performance with a performance degradation of less than 1% under standard 8-bit per-tensor post-training quantization. Moreover, compared to its FP32 counterpart, Q-PETR achieves a two-fold speedup and reduces memory usage by three times, thereby offering a deployment-friendly solution for resource-constrained onboard devices. Extensive experiments across various PETR-series models validate the strong generalization and practical benefits of our approach.
- Abstract(参考訳): カメラベースのマルチビュー3D検出は、低コストで幅広い適用性のために、自動運転の魅力的なソリューションとして登場した。
しかし、3D知覚ベンチマークにおけるPETRベースの手法の強い性能にもかかわらず、インテグレーションの直接のINT8量子化は、mAPでは58.2%、NuScenesデータセットでは36.9%の大幅な精度低下をもたらす。
本研究では,PETRフレームワークのキーコンポーネントを再設計し,位置エンコーディングと画像特徴の動的範囲の相違を解消する量子化対応位置埋め込み変換であるQ-PETRを提案し,低ビット推論にクロスアテンション機構を適用する。
位置符号化モジュールを再設計し、適応量子化戦略を導入することにより、Q-PETRは、標準8ビットのトレーニング後量子化の下で、1%未満の性能低下を伴う浮動小数点性能を維持する。
さらに、Q-PETRはFP32と比較して2倍のスピードアップを実現し、メモリ使用量を3倍に削減する。
PETRシリーズモデルに対する広範囲な実験により,我々のアプローチの強い一般化と実用的メリットが検証された。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Efficient Post-training Quantization with FP8 Formats [14.543387418837154]
本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。
E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
論文 参考訳(メタデータ) (2023-09-26T00:58:36Z) - Towards Clip-Free Quantized Super-Resolution Networks: How to Tame
Representative Images [16.18371675853725]
この研究は、非常に重要だがほとんど見落とされがちなポストトレーニング量子化ステップに焦点をあてる:代表データセット(RD)
本稿では,FP32モデルの出力のみを用いることで,RD画像を巧みに増大させる実験的な正当化を伴って,新しいパイプライン(クリップフリー量子化パイプライン,CFQP)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:41:08Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - Improving Post-Training Quantization on Object Detection with Task
Loss-Guided Lp Metric [43.81334288840746]
PTQ(Post-Training Quantization)は、完全精度モデルを直接低ビット幅に変換する。
PTQは、オブジェクト検出などの複雑なタスクに適用した場合、深刻な精度低下を被る。
DetPTQは、最適な量子化パラメータを選択するためにODOLベースの適応Lpメトリックを使用する。
論文 参考訳(メタデータ) (2023-04-19T16:11:21Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Simple Training Strategies and Model Scaling for Object Detection [38.27709720726833]
RetinaNetおよびRCNN検出器を用いたバニラResNet-FPNバックボーンのベンチマークを行った。
バニラ検出器は精度が7.7%向上し、速度は30%速くなった。
我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。
論文 参考訳(メタデータ) (2021-06-30T18:41:47Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。