論文の概要: PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks
- arxiv url: http://arxiv.org/abs/2508.10557v1
- Date: Thu, 14 Aug 2025 11:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.293862
- Title: PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks
- Title(参考訳): PTQAT:3次元知覚タスクのためのハイブリッドパラメータ効率の量子化アルゴリズム
- Authors: Xinhao Wang, Zhiwei Lin, Zhongyu Xia, Yongtao Wang,
- Abstract要約: ポストトレーニング量子化(PTQ)と量子アウェアトレーニング(QAT)は、2つの主流モデル量子化アプローチを表す。
本稿では,3次元知覚ネットワークの効率的な展開のための新しいハイブリッド量子化アルゴリズムPTQATを提案する。
- 参考スコア(独自算出の注目度): 9.463776523295303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-Training Quantization (PTQ) and Quantization-Aware Training (QAT) represent two mainstream model quantization approaches. However, PTQ often leads to unacceptable performance degradation in quantized models, while QAT imposes substantial GPU memory requirements and extended training time due to weight fine-tuning.In this paper, we propose PTQAT, a novel general hybrid quantization algorithm for the efficient deployment of 3D perception networks. To address the speed accuracy trade-off between PTQ and QAT, our method selects critical layers for QAT fine-tuning and performs PTQ on the remaining layers. Contrary to intuition, fine-tuning the layers with smaller output discrepancies before and after quantization, rather than those with larger discrepancies, actually leads to greater improvements in the model's quantization accuracy. This means we better compensate for quantization errors during their propagation, rather than addressing them at the point where they occur. The proposed PTQAT achieves similar performance to QAT with more efficiency by freezing nearly 50% of quantifiable layers. Additionally, PTQAT is a universal quantization method that supports various quantization bit widths (4 bits) as well as different model architectures, including CNNs and Transformers. The experimental results on nuScenes across diverse 3D perception tasks, including object detection, semantic segmentation, and occupancy prediction, show that our method consistently outperforms QAT-only baselines. Notably, it achieves 0.2%-0.9% NDS and 0.3%-1.0% mAP gains in object detection, 0.3%-2.0% mIoU gains in semantic segmentation and occupancy prediction while fine-tuning fewer weights.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)と量子アウェアトレーニング(QAT)は、2つの主流モデル量子化アプローチを表す。
本稿では,3次元知覚ネットワークを効率的に展開するための新しいハイブリッド量子化アルゴリズムPTQATを提案する。
PTQとQATのトレードオフに対処するため,本手法では,QATの微調整のための重要なレイヤを選択し,残りのレイヤ上でPTQを実行する。
直観とは対照的に、量子化前後の出力差の少ない層を微調整すると、大きな差の大きい層よりも、実際にモデルの量子化精度が向上する。
これは、伝播中の量子化エラーを、それらが発生した時点で対処するよりも、補償する方がよいことを意味します。
提案したPTQATは,約50%の定量層を凍結することにより,QATと同等の性能を発揮する。
さらにPTQATは、様々な量子化ビット幅(4ビット)と、CNNやTransformerを含む様々なモデルアーキテクチャをサポートする普遍的な量子化手法である。
オブジェクト検出,セマンティックセグメンテーション,占有率予測など,多種多様な3次元認識タスクにおけるnuSceneに関する実験結果から,本手法がQATのみのベースラインを一貫して上回ることを示す。
特に、オブジェクト検出において0.2%-0.9% NDSと0.3%-1.0% mAPゲインを達成し、セマンティックセグメンテーションと占有率予測において0.3%-2.0% mIoUゲインを達成し、重量を微調整する。
関連論文リスト
- FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - StableQuant: Layer Adaptive Post-Training Quantization for Speech Foundation Models [15.735282678521186]
StableQuantは広く使われている音声基礎モデル(SFM)のための適応的後学習量子化アルゴリズムである
本稿では,2つのSFM, HuBERT と wav2vec2.0 を用いて自動音声認識(ASR)タスクの評価を行い,従来の PTQ 手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-21T07:33:27Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - EfQAT: An Efficient Framework for Quantization-Aware Training [20.47826378511535]
量子化対応トレーニング(QAT)スキームは、ほぼ完全な精度を実現することが示されている。
ポストトレーニング量子化(PTQ)スキームはトレーニングを伴わないため、計算的に安価である。
本稿では、量子化モデルのパラメータのサブセットのみを最適化することにより、両方のスキームを一般化するEfQATを提案する。
論文 参考訳(メタデータ) (2024-11-17T11:06:36Z) - SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。