論文の概要: Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models
- arxiv url: http://arxiv.org/abs/2311.04902v2
- Date: Mon, 8 Apr 2024 22:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:06:52.128126
- Title: Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models
- Title(参考訳): サイズを超えて: 大規模言語モデルにおけるグラディエント・プルーニングの決定方法
- Authors: Rocktim Jyoti Das, Mingjie Sun, Liqun Ma, Zhiqiang Shen,
- Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
- 参考スコア(独自算出の注目度): 30.246821533532017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) with billions of parameters are prime targets for network pruning, removing some model weights without hurting performance. Prior approaches such as magnitude pruning, SparseGPT, and Wanda, either concentrated solely on weights or integrated weights with activations for sparsity. However, they overlooked the informative gradients derived from pretrained LLMs. In this paper, we present a novel sparsity-centric pruning method for pretrained LLMs, termed Gradient-based Language Model Pruner (GBLM-Pruner). GBLM-Pruner leverages the first-order term of the Taylor expansion, operating in a training-free manner by harnessing properly normalized gradients from a few calibration samples to determine the pruning metric, and substantially outperforms competitive counterparts like SparseGPT and Wanda in multiple benchmarks. Intriguingly, by incorporating gradients, unstructured pruning with our method tends to reveal some structural patterns, which mirrors the geometric interdependence inherent in the LLMs' parameter structure. Additionally, GBLM-Pruner functions without any subsequent retraining or weight updates to maintain its simplicity as other counterparts. Extensive evaluations on LLaMA-1 and LLaMA-2 across various benchmarks show that GBLM-Pruner surpasses magnitude pruning, Wanda and SparseGPT by significant margins. We further extend our approach on Vision Transformer. Our code and models are available at https://github.com/VILA-Lab/GBLM-Pruner.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
マグニチュードプルーニング、スパースGPT、ワンダといった以前のアプローチは、重みのみに集中するか、疎度のための活性化を伴う統合重みに集中していた。
しかし、彼らは事前訓練されたLSMから得られた情報的勾配を見落としていた。
本稿では, グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対するスペーサ中心プルーニング手法を提案する。
GBLM-PrunerはTaylor拡張の第1次項を活用し、いくつかのキャリブレーションサンプルからの正規化勾配を適切に利用してプルーニングメトリックを決定し、複数のベンチマークでSparseGPTやWandaのような競合相手よりも大幅に優れている。
興味深いことに、勾配を組み込んだ非構造プルーニングは、LLMのパラメータ構造に固有の幾何学的相互依存性を反映する構造パターンを明らかにする傾向にある。
さらに、GBLM-Prunerは後続の再トレーニングや重み付けの更新なしに機能し、その単純さを他の機能として維持する。
LLaMA-1 と LLaMA-2 を様々なベンチマークで広範囲に評価した結果,GBLM-Pruner はプルーニング,ワンダ,スパースGPT を大きく上回っていることがわかった。
視覚変換器のアプローチをさらに拡張する。
私たちのコードとモデルはhttps://github.com/VILA-Lab/GBLM-Pruner.comで公開されています。
関連論文リスト
- AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models [20.958265043544603]
大規模言語モデル(LLM)は劇的に成長する。
これらのモデルの圧縮と高速化の傾向が増している。
本研究では, 粒度, アクティベーション, 勾配を適切に統合したハイブリッドプルーニング基準を提案する。
論文 参考訳(メタデータ) (2024-07-16T12:59:44Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。