論文の概要: FQ-PETR: Fully Quantized Position Embedding Transformation for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2511.09347v1
- Date: Thu, 13 Nov 2025 01:47:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.529877
- Title: FQ-PETR: Fully Quantized Position Embedding Transformation for Multi-View 3D Object Detection
- Title(参考訳): FQ-PETR:マルチビュー3次元物体検出のための完全量子化位置埋め込み変換
- Authors: Jiangyong Yu, Changyong Shu, Sifan Zhou, Zichen Yu, Xing Hu, Yan Chen, Dawei Yang,
- Abstract要約: カメラを用いたマルチビュー3D検出のためのフル量子化フレームワークであるFQ-PETRを提案する。
W8A8 の FQ-PETR は、最大75% のレイテンシを低下させながら、ほぼ浮動小数点精度 (1% の劣化) を達成する。
- 参考スコア(独自算出の注目度): 19.80241193121805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based multi-view 3D detection is crucial for autonomous driving. PETR and its variants (PETRs) excel in benchmarks but face deployment challenges due to high computational cost and memory footprint. Quantization is an effective technique for compressing deep neural networks by reducing the bit width of weights and activations. However, directly applying existing quantization methods to PETRs leads to severe accuracy degradation. This issue primarily arises from two key challenges: (1) significant magnitude disparity between multi-modal features-specifically, image features and camera-ray positional embeddings (PE), and (2) the inefficiency and approximation error of quantizing non-linear operators, which commonly rely on hardware-unfriendly computations. In this paper, we propose FQ-PETR, a fully quantized framework for PETRs, featuring three key innovations: (1) Quantization-Friendly LiDAR-ray Position Embedding (QFPE): Replacing multi-point sampling with LiDAR-prior-guided single-point sampling and anchor-based embedding eliminates problematic non-linearities (e.g., inverse-sigmoid) and aligns PE scale with image features, preserving accuracy. (2) Dual-Lookup Table (DULUT): This algorithm approximates complex non-linear functions using two cascaded linear LUTs, achieving high fidelity with minimal entries and no specialized hardware. (3) Quantization After Numerical Stabilization (QANS): Performing quantization after softmax numerical stabilization mitigates attention distortion from large inputs. On PETRs (e.g. PETR, StreamPETR, PETRv2, MV2d), FQ-PETR under W8A8 achieves near-floating-point accuracy (1% degradation) while reducing latency by up to 75%, significantly outperforming existing PTQ and QAT baselines.
- Abstract(参考訳): カメラによる多視点3D検出は自動運転に不可欠である。
PETRとその変種(PETR)はベンチマークでは優れているが、高い計算コストとメモリフットプリントのためにデプロイメントの課題に直面している。
量子化は、重みとアクティベーションのビット幅を減らしてディープニューラルネットワークを圧縮する有効な手法である。
しかし、PETRに既存の量子化法を直接適用すると、精度が著しく低下する。
本問題の主な課題は,(1)多モード特徴量,特に画像特徴量とカメラ線位置定位埋め込み(PE)の相違,(2)非線形演算子の量子化における非効率性と近似誤差の相違である。
本稿では,PETRの完全量子化フレームワークであるFQ-PETRを提案する。(1)量子化-フレンドリーなLiDAR-ray位置埋め込み(QFPE):LiDAR-prior-guidedシングルポイントサンプリングによるマルチポイントサンプリングとアンカーベースの埋め込みにより,問題のある非線形性(例えば逆シグミド)を排除し,PEスケールを画像特徴と整合させ,精度を向上する。
2)DULUT(Dual-Lookup Table): このアルゴリズムは2つのカスケード線形 LUT を用いて複素非線形関数を近似し,最小限のエントリーと特別なハードウェアを持たない高忠実度を実現する。
(3) 数値安定化後の量子化(QANS): ソフトマックス数値安定化後の量子化により、大きな入力からの注意歪みが軽減される。
PETR(eg PETR, StreamPETR, PETRv2, MV2d)では、W8A8のFQ-PETRは、レイテンシを最大75%削減し、既存のPTQおよびQATベースラインよりも大幅に向上する。
関連論文リスト
- Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - Q-PETR: Quant-aware Position Embedding Transformation for Multi-View 3D Object Detection [9.961425621432474]
PETRフレームワークの重要なコンポーネントを再設計する量子化対応位置埋め込み変換であるQ-PETRを提案する。
Q-PETRは、標準的な8ビットのトレーニング後量子化の下で、1%未満の性能低下を伴う浮動小数点性能を維持している。
FP32と比較して、Q-PETRは2倍のスピードアップを実現し、メモリ使用量を3倍削減する。
論文 参考訳(メタデータ) (2025-02-21T14:26:23Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - LiDAR-PTQ: Post-Training Quantization for Point Cloud 3D Object
Detection [35.35457515189062]
ポストトレーニング量子化(PTQ)は2次元視覚タスクで広く採用されている。
センターポイントに適用した場合、LiDAR-PTQは最先端の量子化性能が得られる。
LiDAR-PTQは、量子化対応のトレーニング手法よりも30倍高速である。
論文 参考訳(メタデータ) (2024-01-29T03:35:55Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。