論文の概要: Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2504.09629v2
- Date: Fri, 16 May 2025 09:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:12.773883
- Title: Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization
- Title(参考訳): 量子化エラーの伝播:レイヤーワイズ後量子化の再検討
- Authors: Yamato Arai, Yuma Ichikawa,
- Abstract要約: 層ワイドPTQは大規模言語モデル(LLM)を圧縮するための有望な手法である
この領域の最近の進歩は飽和しており、中核的な制限を再検討し、さらなる改善を検討する必要性を浮き彫りにしている。
本稿では,量子化エラーを明示的に伝播し,蓄積したエラーを補償することにより,レイヤワイズPTQを向上させる,汎用的で軽量でスケーラブルなフレームワークである量子化エラー伝播(QEP)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Layer-wise PTQ is a promising technique for compressing large language models (LLMs), due to its simplicity and effectiveness without requiring retraining. However, recent progress in this area is saturating, underscoring the need to revisit its core limitations and explore further improvements. We address this challenge by identifying a key limitation of existing layer-wise PTQ methods: the growth of quantization errors across layers significantly degrades performance, particularly in low-bit regimes. To address this fundamental issue, we propose Quantization Error Propagation (QEP), a general, lightweight, and scalable framework that enhances layer-wise PTQ by explicitly propagating quantization errors and compensating for accumulated errors. QEP also offers a tunable propagation mechanism that prevents overfitting and controls computational overhead, enabling the framework to adapt to various architectures and resource budgets. Extensive experiments on several LLMs demonstrate that QEP-enhanced layer-wise PTQ achieves substantially higher accuracy than existing methods. Notably, the gains are most pronounced in the extremely low-bit quantization regime.
- Abstract(参考訳): レイヤワイズPTQは,大規模言語モデル(LLM)を圧縮する上で有望な手法である。
しかし、この分野の最近の進歩は飽和しており、コアの制限を再検討し、さらなる改善を検討する必要性を強調している。
層間量子化誤差の増大は、特に低ビット状態において、性能を著しく低下させる。
この根本的な問題に対処するために、量子化エラーを明示的に伝播し、蓄積したエラーを補償することにより、階層的PTQを強化する汎用的で軽量でスケーラブルなフレームワークであるQuantization Error Propagation (QEP)を提案する。
QEPはまた、計算オーバーヘッドの過度な適合を防止し、フレームワークが様々なアーキテクチャやリソース予算に適応できるようにする、調整可能な伝搬メカニズムも提供する。
いくつかのLCM実験で、QEP強化層ワイドPTQは既存の方法よりもかなり精度が高いことが示されている。
特に、ゲインは極低ビット量子化系において最も顕著である。
関連論文リスト
- APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文 参考訳(メタデータ) (2025-04-03T11:48:56Z) - GranQ: Granular Zero-Shot Quantization with Unified Layer-Channel Awareness [1.8067835669244101]
GranQは、層チャネル認識を利用して量子化エラーを最小限に抑える新しいZSQアプローチである。
GranQは、量子化学習を用いた最先端のZSQ手法と比較して、優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-24T04:44:21Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models [13.709080134204326]
トレーニング後の量子化(PTQ)は、リソース制限設定内に大規模な言語モデルをデプロイする上で重要な要素である。
本稿では,グラフニューラルネットワーク (GNN) モジュールを用いて重み間の依存関係をキャプチャする混合精度グラフニューラルPTQ (MG-PTQ) 手法を提案する。
本手法は, 目標重み間の依存性をより効果的に把握し, 重みの重要性をより正確に評価する。
論文 参考訳(メタデータ) (2025-01-30T05:39:01Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。
階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。