論文の概要: AWP: Activation-Aware Weight Pruning and Quantization with Projected Gradient Descent
- arxiv url: http://arxiv.org/abs/2506.10205v1
- Date: Wed, 11 Jun 2025 21:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.47522
- Title: AWP: Activation-Aware Weight Pruning and Quantization with Projected Gradient Descent
- Title(参考訳): AWP: 投射したグラディエントDescentによるアクティブなウェイトプルーニングと量子化
- Authors: Jing Liu, Toshiaki Koike-Akino, Ye Wang, Hassan Mansour, Matthew Brand,
- Abstract要約: 本稿では, 投射勾配降下法(AWP)によるアクティブ・アウェア・ウェイトプルーニングと量子化の手法を提案する。
実験により、AWPは最先端のLCMプルーニング法および量子化法より優れていることが示された。
- 参考スコア(独自算出の注目度): 17.04258244226921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the enormous size of Large Language Models (LLMs), model compression methods, such as quantization and pruning, are often deployed, especially on edge devices. In this work, we focus on layer-wise post-training quantization and pruning. Drawing connections between activation-aware weight pruning and sparse approximation problems, and motivated by the success of Iterative Hard Thresholding (IHT), we propose a unified method for Activation-aware Weight pruning and quantization via Projected gradient descent (AWP). Our experiments demonstrate that AWP outperforms state-of-the-art LLM pruning and quantization methods. Theoretical convergence guarantees of the proposed method for pruning are also provided.
- Abstract(参考訳): 大規模言語モデル(LLM)の巨大なサイズに対応するため、量子化やプルーニングといったモデル圧縮手法が、特にエッジデバイスにしばしばデプロイされる。
本研究では,学習後の量子化とプルーニングに焦点をあてる。
IHT(Iterative Hard Thresholding)の成功にともなう,アクティベーション・アウェア・ウェイト・プルーニングとスパース近似問題との接続を図った上で,AWP(Projected gradient descent)によるアクティベーション・アウェア・ウェイト・プルーニングと量子化の統一手法を提案する。
実験により、AWPは最先端のLCMプルーニング法および量子化法より優れていることが示された。
提案手法の理論的収束保証も提供する。
関連論文リスト
- QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Compression Scaling Laws:Unifying Sparsity and Quantization [65.05818215339498]
プレトレーニング中の大規模言語モデル(LLM)のスケーリング挙動に異なる圧縮手法がどう影響するかを検討する。
重みのみの量子化は強力なパラメータ効率乗算器を実現する一方で、重みとアクティベーションの完全な量子化は低ビット幅でのリターンの低下を示す。
以上の結果から,異なる圧縮手法を共通のスケーリング法枠組みの下で統一できることが示唆された。
論文 参考訳(メタデータ) (2025-02-23T04:47:36Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。