論文の概要: Pack-PTQ: Advancing Post-training Quantization of Neural Networks by Pack-wise Reconstruction
- arxiv url: http://arxiv.org/abs/2505.00259v1
- Date: Thu, 01 May 2025 02:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.204036
- Title: Pack-PTQ: Advancing Post-training Quantization of Neural Networks by Pack-wise Reconstruction
- Title(参考訳): Pack-PTQ: パッケージワイズ再構成によるニューラルネットワークの学習後量子化の促進
- Authors: Changjun Li, Runqing Jiang, Zhuo Song, Pengpeng Yu, Ye Zhang, Yulan Guo,
- Abstract要約: ポストトレーニング量子化(PTQ)は、複雑なモデルを圧縮するための顕著なソリューションとして進化してきた。
本稿では,Pack-PTQと呼ばれる新しいPTQ手法を提案する。
そこで本研究では,様々なビット幅を異なる感度でパックに割り当てる混合精度量子化手法を提案する。
- 参考スコア(独自算出の注目度): 31.14466497202028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) has evolved as a prominent solution for compressing complex models, which advocates a small calibration dataset and avoids end-to-end retraining. However, most existing PTQ methods employ block-wise reconstruction, which neglects cross-block dependency and exhibits a notable accuracy drop in low-bit cases. To address these limitations, this paper presents a novel PTQ method, dubbed Pack-PTQ. First, we design a Hessian-guided adaptive packing mechanism to partition blocks into non-overlapping packs, which serve as the base unit for reconstruction, thereby preserving the cross-block dependency and enabling accurate quantization parameters estimation. Second, based on the pack configuration, we propose a mixed-precision quantization approach to assign varied bit-widths to packs according to their distinct sensitivities, thereby further enhancing performance. Extensive experiments on 2D image and 3D point cloud classification tasks, using various network architectures, demonstrate the superiority of our method over the state-of-the-art PTQ methods.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、小さなキャリブレーションデータセットを提唱し、エンドツーエンドの再トレーニングを避ける複雑なモデルを圧縮するための顕著なソリューションとして進化してきた。
しかし、既存のPTQ手法の多くはブロックワイド再構成を採用しており、クロスブロック依存を無視し、低ビットのケースでは顕著な精度低下を示す。
これらの制約に対処するため,Pack-PTQと呼ばれる新しいPTQ手法を提案する。
まず,Hessian-Guided Adaptive Packing 機構を設計し,ブロックを非重複パックに分割し,ブロック間の依存性を保ち,正確な量子化パラメータの推定を可能にする。
第2に、パック構成に基づいて、異なるビット幅を異なる感度でパックに割り当てる混合精度量子化手法を提案し、性能をさらに向上させる。
各種ネットワークアーキテクチャを用いた2次元画像および3次元点クラウド分類タスクの広範囲にわたる実験により,最先端のPTQ法よりも本手法が優れていることを示す。
関連論文リスト
- Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
学習後の量子化は、大規模な言語モデル(LLM)を再学習せずに圧縮する手法として広く使われている。
層間の量子化誤差の蓄積は、特に低ビット状態において、性能を著しく低下させる。
本稿では,QEP(Quantization Error propagation)を提案する。QEP(Quantization Error propagation)は,QEP(Quantization Error propagation)を明示的に伝播させることにより,レイヤワイドPTQを強化する軽量で汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Progressive Fine-to-Coarse Reconstruction for Accurate Low-Bit Post-Training Quantization in Vision Transformers [13.316135182889296]
後トレーニング量子化(PTQ)は視覚変換器(ViT)の圧縮に広く採用されている。
低ビット表現に量子化されると、完全精度の表現に比べて大きな性能低下がしばしば起こる。
低ビット量子化ビジョントランスの性能を大幅に向上させるPFCR法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:38:59Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。
階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - RepQ: Generalizing Quantization-Aware Training for Re-Parametrized
Architectures [3.797846371838652]
本稿では、再パラメータ化ネットワークに量子化を適用するRepQという新しい手法を提案する。
本手法は、任意の再パラメータ化層の試験段重みを、訓練可能なパラメータの微分可能な関数として表すことができるという知見に基づいている。
RepQは様々な再パラメータ化モデルによく対応し、全ての実験においてベースライン法LSQ量子化スキームより優れる。
論文 参考訳(メタデータ) (2023-11-09T12:25:39Z) - EPTQ: Enhanced Post-Training Quantization via Hessian-guided Network-wise Optimization [3.3998740964877463]
量子化は、メモリと計算リソースが限られているエッジデバイスにディープニューラルネットワークをデプロイするための重要な方法である。
本稿では,ネットワークワイド量子化最適化プロセスを用いたEPTQ(Post-Training Quantization)の高速化手法を提案する。
論文 参考訳(メタデータ) (2023-09-20T10:50:28Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。