論文の概要: Provable Post-Training Quantization: Theoretical Analysis of OPTQ and Qronos
- arxiv url: http://arxiv.org/abs/2508.04853v1
- Date: Wed, 06 Aug 2025 20:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.634889
- Title: Provable Post-Training Quantization: Theoretical Analysis of OPTQ and Qronos
- Title(参考訳): 予測された後量子化:OPTQとQronosの理論解析
- Authors: Haoyu Zhang, Shihao Zhang, Ian Colbert, Rayan Saab,
- Abstract要約: ポストトレーニング量子化(PTQ)は、現代のディープニューラルネットワークのメモリと計算コストを削減する重要なツールとなっている。
OPTQフレームワーク(GPTQ-has)は、計算効率と強力な経験的性能のため、主要な手法として登場した。
広く採用されているにもかかわらず、OPTQは厳格な理論的保証を欠いている。
- 参考スコア(独自算出の注目度): 11.469337174377046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) has become a crucial tool for reducing the memory and compute costs of modern deep neural networks, including large language models (LLMs). Among PTQ algorithms, the OPTQ framework-also known as GPTQ-has emerged as a leading method due to its computational efficiency and strong empirical performance. Despite its widespread adoption, however, OPTQ lacks rigorous quantitative theoretical guarantees. This paper presents the first quantitative error bounds for both deterministic and stochastic variants of OPTQ, as well as for Qronos, a recent related state-of-the-art PTQ algorithm. We analyze how OPTQ's iterative procedure induces quantization error and derive non-asymptotic 2-norm error bounds that depend explicitly on the calibration data and a regularization parameter that OPTQ uses. Our analysis provides theoretical justification for several practical design choices, including the widely used heuristic of ordering features by decreasing norm, as well as guidance for selecting the regularization parameter. For the stochastic variant, we establish stronger infinity-norm error bounds, which enable control over the required quantization alphabet and are particularly useful for downstream layers and nonlinearities. Finally, we extend our analysis to Qronos, providing new theoretical bounds, for both its deterministic and stochastic variants, that help explain its empirical advantages.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、大規模言語モデル(LLM)を含む現代のディープニューラルネットワークのメモリと計算コストを削減する重要なツールとなっている。
PTQアルゴリズムの中では、計算効率と強力な経験的性能のため、OPTQフレームワーク(GPTQ-has)が先導的な手法として登場した。
しかし、OPTQは広く採用されているにもかかわらず、厳密な定量的な保証を欠いている。
本稿では,OPTQの定性的・確率的な変種と,最近の関連するPTQアルゴリズムであるQronosについて,最初の量的誤差境界を提案する。
我々は、OPTQの反復手順が量子化誤差を誘導し、OPTQが使用するキャリブレーションデータと正規化パラメータに明示的に依存する非漸近2ノルム誤差境界を導出する方法を分析する。
本分析は, 正規化パラメータの選択方法だけでなく, 規則化パラメータの選択による順序付け特徴のヒューリスティックなど, 実用的な設計選択の理論的正当性を提供する。
確率不変量に対して、必要量子化アルファベットの制御を可能にするより強い無限-ノルム誤差境界を確立し、下流層や非線形性に特に有用である。
最後に、我々は分析を Qronos に拡張し、その決定論的および確率的不変量の両方に対して新しい理論的境界を提供し、その経験的優位性を説明するのに役立つ。
関連論文リスト
- FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Unified Stochastic Framework for Neural Network Quantization and Pruning [11.721939479875271]
本稿では,パス追従アルゴリズムを用いて量子化とプルーニングを後処理する統合フレームワークを提案する。
提案手法は,経路追従量子化法(SPFQ)に基づいて,プルーニングおよび低ビット量子化方式の適用性を向上させる。
論文 参考訳(メタデータ) (2024-12-24T05:38:01Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z) - QFT: Post-training quantization via fast joint finetuning of all degrees
of freedom [1.1744028458220428]
我々は、すべての量子化DoFの統一的な分析に向けて、HWを意識した方法で量子化ネットワークパラメータ化を再考する。
本手法はQFT(quantization-aware finetuning)と呼ばれ,SoTAと同等の4ビット重み量子化結果が得られる。
論文 参考訳(メタデータ) (2022-12-05T22:38:58Z) - End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - A kernel-based quantum random forest for improved classification [0.0]
従来の古典的学習手法を強化する量子機械学習(QML)は、その実現に様々な制限がある。
量子カーネル推定(QKE)によって計算されるカーネル関数で線形量子支援ベクトルマシン(QSVM)を拡張する。
オーバーフィッティングを制限するため、カーネル行列に低ランクNystr"om近似を適用するようモデルをさらに拡張する。
論文 参考訳(メタデータ) (2022-10-05T15:57:31Z) - Theoretical Error Performance Analysis for Variational Quantum Circuit
Based Functional Regression [83.79664725059877]
本研究では,次元減少と機能回帰のためのエンドツーエンドの量子ニューラルネットワークであるTTN-VQCを提案する。
また,polyak-Lojasiewicz (PL) 条件を利用してTTN-VQCの最適化特性を特徴付ける。
論文 参考訳(メタデータ) (2022-06-08T06:54:07Z) - A Convergence Theory for Over-parameterized Variational Quantum
Eigensolvers [21.72347971869391]
変分量子固有解法(VQE)は、近未来のノイズ中間規模量子(NISQ)コンピュータにおける量子応用の有望な候補である。
オーバーパラメータ化系におけるVQEの収束の厳密な分析を行った。
論文 参考訳(メタデータ) (2022-05-25T04:06:50Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。