論文の概要: Z-Pruner: Post-Training Pruning of Large Language Models for Efficiency without Retraining
- arxiv url: http://arxiv.org/abs/2508.15828v1
- Date: Mon, 18 Aug 2025 16:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.097248
- Title: Z-Pruner: Post-Training Pruning of Large Language Models for Efficiency without Retraining
- Title(参考訳): Z-Pruner: 大規模な言語モデルのトレーニング後プルーニング
- Authors: Samiul Basir Bhuiyan, Md. Sazzad Hossain Adib, Mohammed Aman Bhuiyan, Muhammad Rafsan Kabir, Moshiur Farazi, Shafin Rahman, Nabeel Mohammed,
- Abstract要約: トレーニング後のプルーニングは、再トレーニングを必要とせずに、モデルサイズと推論レイテンシを低減するための有望なアプローチである。
Z-Prunerは,事前学習された大規模言語モデルにおいて,再学習を伴わずにスパーシリティを誘導するために設計された,新しい訓練後プルーニング手法である。
Z-Prunerは、重量の集中的な更新を必要とする最先端のプルーニング手法を超越している。
- 参考スコア(独自算出の注目度): 6.578456055730258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have rapidly advanced in recent years, achieving remarkable performance across a wide range of natural language processing tasks. However, this progress has come at the cost of increasingly large model sizes, which pose significant challenges for deployment, scalability, and energy efficiency. To address these limitations, post-training pruning has emerged as a promising approach for reducing model size and inference latency without the need for retraining. Despite these advantages, many existing pruning methods result in substantial performance degradation or require computationally expensive fine-tuning. In this work, we introduce Z-Pruner, a novel post-training pruning method designed to induce sparsity in pretrained LLMs without any retraining. Unlike conventional approaches, Z-Pruner leverages both weight update magnitudes and activation patterns to identify and eliminate redundant parameters more effectively. Our method is model-agnostic, efficient, and easy to implement. We evaluate Z-Pruner using multiple widely-used LLM architectures, including LLaMA-2, LLaMA-3, and OPT, across a diverse set of standard language benchmarks. Experimental results demonstrate that Z-Pruner surpasses state-of-the-art pruning methods that require intensive weight updates. Specifically, Z-Pruner achieves the lowest perplexity scores and the highest overall average score for zero-shot accuracy. We have made the corresponding codes publicly available at https://github.com/sazzadadib/Z-Pruner.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年急速に進歩し、幅広い自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
しかし、この進歩はますます大きなモデルサイズを犠牲にしており、デプロイメント、スケーラビリティ、エネルギー効率の面で大きな課題をもたらしています。
これらの制限に対処するため、トレーニング後プルーニングは、再トレーニングを必要とせずに、モデルサイズと推論レイテンシを低減するための有望なアプローチとして登場した。
これらの利点にもかかわらず、多くの既存のプルーニング手法は性能を著しく低下させるか、計算に高価な微調整を必要とする。
本研究では,Z-Prunerについて紹介する。Z-Prunerは,事前学習したLLMにおいて,再学習を伴わずにスパーシリティを誘導する,新しいポストトレーニングプルーニング手法である。
従来のアプローチとは異なり、Z-Prunerはウェイトアップデートの規模とアクティベーションパターンの両方を活用して、冗長パラメータをより効果的に識別し排除する。
提案手法は, モデルに依存しない, 効率的, 実装が容易である。
LLaMA-2, LLaMA-3, OPTを含む多種多様な標準言語ベンチマークを用いてZ-Prunerの評価を行った。
実験の結果,Z-Prunerは重み更新を必要とする最先端のプルーニング法を上回ることがわかった。
具体的には、Z-Prunerは、ゼロショット精度で最も低いパープレキシティスコアと最高平均スコアを達成する。
対応するコードはhttps://github.com/sazzadadib/Z-Pruner.comで公開しています。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
本稿では,学習後圧縮フレームワークであるPBS$2$Pによるプログレッシブバイナリ化を提案する。
PBS$2$Pは、最先端のバイナリポストトレーニング量子化法を、複雑度と下流の精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。