Fugu-MT 論文翻訳(概要): HWPQ: Hessian-free Weight Pruning-Quantization For LLM Compression And Acceleration

論文の概要: HWPQ: Hessian-free Weight Pruning-Quantization For LLM Compression And Acceleration

arxiv url: http://arxiv.org/abs/2501.16376v1
Date: Fri, 24 Jan 2025 02:50:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:10.904992
Title: HWPQ: Hessian-free Weight Pruning-Quantization For LLM Compression And Acceleration
Title（参考訳）: HWPQ: LLM圧縮と加速のためのヘシアンフリー軽量プルーニング量子化
Authors: Yuhan Kang, Zhongdi Luo, Mei Wen, Yang Shi, Jun He, Jianchao Yang, Zeyu Xue, Jing Feng, Xinwang Liu,
Abstract要約: 大規模言語モデルのためのHWPQ(Hessian-free Weight Pruning-Quantization)法を提案する。 HWPQは、コントリビューションベースのウェイトメトリックを導入することにより、計算集約的なヘッセン行列計算の必要性を排除している。我々はHWPQが量子化時間で5.97x(最大20.75x)、プルーニング時間で12.29x(最大56.02x)の平均スピードアップを達成するのを観察する。
参考スコア（独自算出の注目度）: 41.47938791069985
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success across numerous domains. However, the high time complexity of existing pruning and quantization methods significantly hinders their effective deployment on resource-constrained consumer or edge devices. In this study, we propose a novel Hessian-free Weight Pruning-Quantization (HWPQ) method. HWPQ eliminates the need for computationally intensive Hessian matrix calculations by introducing a contribution-based weight metric, which evaluates the importance of weights without relying on second-order derivatives. Additionally, we employ the Exponentially Weighted Moving Average (EWMA) technique to bypass weight sorting, enabling the selection of weights that contribute most to LLM accuracy and further reducing time complexity. Our approach is extended to support 2:4 structured sparsity pruning, facilitating efficient execution on modern hardware accelerators. Experimental results demonstrate that HWPQ significantly enhances the compression performance of LLaMA2. Compared to state-of-the-art quantization and pruning frameworks, HWPQ achieves average speedups of 5.97x (up to 20.75x) in quantization time and 12.29x (up to 56.02x) in pruning time, while largely preserving model accuracy. Furthermore, we observe a 1.50x inference speedup compared to the baseline.
Abstract（参考訳）: 大規模言語モデル(LLM)は多くのドメインで大きな成功を収めています。しかし、既存のプルーニングと量子化の手法の時間的複雑さは、リソース制約のあるコンシューマやエッジデバイスへの効果的な展開を著しく妨げている。本研究では,HWPQ(Hessian-free Weight Pruning-Quantization)法を提案する。 HWPQは、2階微分に頼らずに重みの重要性を評価するコントリビューションベースの重み計量を導入することで、計算集約的なヘッセン行列計算の必要性を排除している。さらに、重み付けを回避し、LLMの精度に最も寄与する重みの選択を可能にし、さらに時間的複雑さを低減するために、Exponentially Weighted moving Average (EWMA) 技術を用いている。われわれのアプローチは2:4の構造化されたスパシティプルーニングをサポートするように拡張され、現代のハードウェアアクセラレーター上での効率的な実行が容易になった。実験により,HWPQはLLaMA2の圧縮性能を著しく向上することが示された。最先端の量子化およびプルーニングフレームワークと比較すると、HWPQは量子化時間で5.97x(最大20.75x)、プルーニング時間で12.29x(最大56.02x)の平均スピードアップを達成するが、モデル精度はほとんど保存されている。さらに、ベースラインと比較して1.50倍の推論速度を観測する。

関連論文リスト

ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning [15.933542902352604]
本研究では,高速刈り出し性能と高速刈り出し速度を同時に達成する効率的かつ効率的な刈り出し法を提案する。実験結果から, 本手法は, パープレキシティの最大18%, プルーニング時間の最大63%低減を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-28T05:25:16Z)
Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.7618807098457]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文参考訳（メタデータ） (2025-05-26T15:57:08Z)
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文参考訳（メタデータ） (2025-04-10T02:19:03Z)
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文参考訳（メタデータ） (2025-03-20T21:03:10Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。 1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文参考訳（メタデータ） (2025-02-05T18:57:40Z)
DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [3.78219736760145]
拡散モデルの量子化はモデルを圧縮し加速する有望な方法である。既存の方法は、低ビット量子化のために、精度と効率の両方を同時に維持することはできない。拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
論文参考訳（メタデータ） (2024-09-22T04:21:29Z)
ERQ: Error Reduction for Post-Training Quantization of Vision Transformers [48.740630807085566]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。 ERQはW3A4 ViT-Sの精度を22.36%上回っている。
論文参考訳（メタデータ） (2024-07-09T12:06:03Z)
OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文参考訳（メタデータ） (2024-06-27T02:02:26Z)
BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化(PTQ)は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするための有望なソリューションである。階層間依存関係を考慮し整数重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T11:53:21Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。 LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文参考訳（メタデータ） (2023-10-05T02:51:53Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T07:41:11Z)
Hardware Acceleration of Explainable Machine Learning using Tensor Processing Units [3.5027291542274357]
処理ユニット(TPU)を用いた説明可能な機械学習(ML)を加速するための新しいフレームワークを提案する。このフレームワークは、行列畳み込みとフーリエ変換の相乗効果を利用し、行列計算を加速するTPUの自然能力を最大限に活用する。提案手法は幅広いMLアルゴリズムに適用可能であり、TPUベースのアクセラレーションの有効活用は、リアルタイム結果の解釈につながる可能性があります。
論文参考訳（メタデータ） (2021-03-22T15:11:45Z)
PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文参考訳（メタデータ） (2020-11-09T06:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。