論文の概要: Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2502.15488v1
- Date: Fri, 21 Feb 2025 14:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:47.484748
- Title: Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection
- Title(参考訳): Q-PETR:マルチビュー3次元物体検出のための量子認識位置埋め込み変換
- Authors: Jiangyong Yu, Changyong Shu, Dawei Yang, Zichen Yu, Xing Hu, Yan Chen,
- Abstract要約: PETRベースの手法は3D知覚においてベンチマークを支配しており、現代の自律運転システムにおいて重要なコンポーネントになりつつある。
Q-PETRと呼ばれる多視点3次元物体検出のための量子化対応位置埋め込み変換を提案する。
提案手法は,標準8ビット/テンソル後量子化法において,mAPおよびNDSの低下を1%以内に抑える。
- 参考スコア(独自算出の注目度): 9.275552337409163
- License:
- Abstract: PETR-based methods have dominated benchmarks in 3D perception and are increasingly becoming a key component in modern autonomous driving systems. However, their quantization performance significantly degrades when INT8 inference is required, with a degradation of 58.2% in mAP and 36.9% in NDS on the NuScenes dataset. To address this issue, we propose a quantization-aware position embedding transformation for multi-view 3D object detection, termed Q-PETR. Q-PETR offers a quantizationfriendly and deployment-friendly architecture while preserving the original performance of PETR. It substantially narrows the accuracy gap between INT8 and FP32 inference for PETR-series methods. Without bells and whistles, our approach reduces the mAP and NDS drop to within 1% under standard 8-bit per-tensor post-training quantization. Furthermore, our method exceeds the performance of the original PETR in terms of floating-point precision. Extensive experiments across a variety of PETR-series models demonstrate its broad generalization.
- Abstract(参考訳): PETRベースの手法は3D知覚においてベンチマークを支配しており、現代の自律運転システムにおいて重要なコンポーネントになりつつある。
しかし、その量子化性能はINT8推論が必要なときに著しく低下し、mAPでは58.2%、NuScenesデータセットではNDSでは36.9%が低下した。
そこで本研究では,Q-PETRと呼ばれる多視点3次元物体検出のための量子化対応位置埋め込み変換を提案する。
Q-PETRは、PETRの本来の性能を保ちながら、量子化に親しみやすいデプロイメントフレンドリーなアーキテクチャを提供する。
PETRシリーズ法におけるINT8とFP32の精度ギャップを著しく狭める。
ベルとホイッスルがなければ,標準的な8ビット/テンソル量子化法では,mAPとNDSの低下は1%以内に減少する。
さらに,本手法は浮動小数点精度で元のPETRの性能を上回った。
PETRシリーズモデルの広範な実験は、その広範な一般化を実証している。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Efficient Post-training Quantization with FP8 Formats [14.543387418837154]
本稿では,75のユニークなネットワークアーキテクチャにおけるFP8データフォーマットの学習後量子化の利点について検討する。
E4M3はNLPモデルに向いているが、E3M4はコンピュータビジョンタスクではE4M3よりはるかに優れている。
論文 参考訳(メタデータ) (2023-09-26T00:58:36Z) - Towards Clip-Free Quantized Super-Resolution Networks: How to Tame
Representative Images [16.18371675853725]
この研究は、非常に重要だがほとんど見落とされがちなポストトレーニング量子化ステップに焦点をあてる:代表データセット(RD)
本稿では,FP32モデルの出力のみを用いることで,RD画像を巧みに増大させる実験的な正当化を伴って,新しいパイプライン(クリップフリー量子化パイプライン,CFQP)を提案する。
論文 参考訳(メタデータ) (2023-08-22T11:41:08Z) - QD-BEV : Quantization-aware View-guided Distillation for Multi-view 3D
Object Detection [57.019527599167255]
BEV (bird-eye-view) に基づく多視点3D検出は、最近大幅に改善されている。
本稿では,BEVタスクに量子化を直接適用することで,トレーニングが不安定になり,性能劣化が許容できないことを示す。
QD-BEVにより,新しいビュー誘導蒸留(VGD)の目標が実現され,QAT(量子化対応トレーニング)の安定化が図られ,モデル性能が向上する。
論文 参考訳(メタデータ) (2023-08-21T07:06:49Z) - Improving Post-Training Quantization on Object Detection with Task
Loss-Guided Lp Metric [43.81334288840746]
PTQ(Post-Training Quantization)は、完全精度モデルを直接低ビット幅に変換する。
PTQは、オブジェクト検出などの複雑なタスクに適用した場合、深刻な精度低下を被る。
DetPTQは、最適な量子化パラメータを選択するためにODOLベースの適応Lpメトリックを使用する。
論文 参考訳(メタデータ) (2023-04-19T16:11:21Z) - Point-Voxel Transformer: An Efficient Approach To 3D Deep Learning [5.236787242129767]
本稿では,ポイント・ボクセル変換器 (PVT) と呼ばれる新しい3次元変換器を提案する。
提案手法はトランスフォーマーアーキテクチャの可能性を完全に活用し,効率よく正確な認識を行う。
論文 参考訳(メタデータ) (2021-08-13T06:07:57Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - Simple Training Strategies and Model Scaling for Object Detection [38.27709720726833]
RetinaNetおよびRCNN検出器を用いたバニラResNet-FPNバックボーンのベンチマークを行った。
バニラ検出器は精度が7.7%向上し、速度は30%速くなった。
我々の最大のRCNN-RSモデルは、ResNet152-FPNバックボーンで52.9%AP、SpineNet143Lバックボーンで53.6%APを達成した。
論文 参考訳(メタデータ) (2021-06-30T18:41:47Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。