論文の概要: HWPQ: Hessian-free Weight Pruning-Quantization For LLM Compression And Acceleration
- arxiv url: http://arxiv.org/abs/2501.16376v1
- Date: Fri, 24 Jan 2025 02:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 22:09:10.904992
- Title: HWPQ: Hessian-free Weight Pruning-Quantization For LLM Compression And Acceleration
- Title(参考訳): HWPQ: LLM圧縮と加速のためのヘシアンフリー軽量プルーニング量子化
- Authors: Yuhan Kang, Zhongdi Luo, Mei Wen, Yang Shi, Jun He, Jianchao Yang, Zeyu Xue, Jing Feng, Xinwang Liu,
- Abstract要約: 大規模言語モデルのためのHWPQ(Hessian-free Weight Pruning-Quantization)法を提案する。
HWPQは、コントリビューションベースのウェイトメトリックを導入することにより、計算集約的なヘッセン行列計算の必要性を排除している。
我々はHWPQが量子化時間で5.97x(最大20.75x)、プルーニング時間で12.29x(最大56.02x)の平均スピードアップを達成するのを観察する。
- 参考スコア(独自算出の注目度): 41.47938791069985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success across numerous domains. However, the high time complexity of existing pruning and quantization methods significantly hinders their effective deployment on resource-constrained consumer or edge devices. In this study, we propose a novel Hessian-free Weight Pruning-Quantization (HWPQ) method. HWPQ eliminates the need for computationally intensive Hessian matrix calculations by introducing a contribution-based weight metric, which evaluates the importance of weights without relying on second-order derivatives. Additionally, we employ the Exponentially Weighted Moving Average (EWMA) technique to bypass weight sorting, enabling the selection of weights that contribute most to LLM accuracy and further reducing time complexity. Our approach is extended to support 2:4 structured sparsity pruning, facilitating efficient execution on modern hardware accelerators. Experimental results demonstrate that HWPQ significantly enhances the compression performance of LLaMA2. Compared to state-of-the-art quantization and pruning frameworks, HWPQ achieves average speedups of 5.97x (up to 20.75x) in quantization time and 12.29x (up to 56.02x) in pruning time, while largely preserving model accuracy. Furthermore, we observe a 1.50x inference speedup compared to the baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのドメインで大きな成功を収めています。
しかし、既存のプルーニングと量子化の手法の時間的複雑さは、リソース制約のあるコンシューマやエッジデバイスへの効果的な展開を著しく妨げている。
本研究では,HWPQ(Hessian-free Weight Pruning-Quantization)法を提案する。
HWPQは、2階微分に頼らずに重みの重要性を評価するコントリビューションベースの重み計量を導入することで、計算集約的なヘッセン行列計算の必要性を排除している。
さらに、重み付けを回避し、LLMの精度に最も寄与する重みの選択を可能にし、さらに時間的複雑さを低減するために、Exponentially Weighted moving Average (EWMA) 技術を用いている。
われわれのアプローチは2:4の構造化されたスパシティプルーニングをサポートするように拡張され、現代のハードウェアアクセラレーター上での効率的な実行が容易になった。
実験により,HWPQはLLaMA2の圧縮性能を著しく向上することが示された。
最先端の量子化およびプルーニングフレームワークと比較すると、HWPQは量子化時間で5.97x(最大20.75x)、プルーニング時間で12.29x(最大56.02x)の平均スピードアップを達成するが、モデル精度はほとんど保存されている。
さらに、ベースラインと比較して1.50倍の推論速度を観測する。
関連論文リスト
- Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [3.78219736760145]
拡散モデルの量子化はモデルを圧縮し加速する有望な方法である。
既存の方法は、低ビット量子化のために、精度と効率の両方を同時に維持することはできない。
拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
論文 参考訳(メタデータ) (2024-09-22T04:21:29Z) - ERQ: Error Reduction for Post-Training Quantization of Vision Transformers [48.740630807085566]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。
ERQはW3A4 ViT-Sの精度を22.36%上回っている。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。
提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文 参考訳(メタデータ) (2024-06-27T02:02:26Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。
階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。