論文の概要: Beyond Size: How Gradients Shape Pruning Decisions in Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.04902v1
- Date: Wed, 8 Nov 2023 18:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:48:38.320767
- Title: Beyond Size: How Gradients Shape Pruning Decisions in Large Language
Models
- Title(参考訳): サイズを超えて - 大規模言語モデルにおける粒度決定の方法
- Authors: Rocktim Jyoti Das and Liqun Ma and Zhiqiang Shen
- Abstract要約: 数十億以上のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットである。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
GBLM-Pruner は,大刈り,Wanda (weights+activations) およびSparseGPT (weights+activations+weight update) を大きく上回っている。
- 参考スコア(独自算出の注目度): 27.488197964786806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) with a billion or more parameters are prime
targets for network pruning, which aims to reduce a portion of the network
weights without compromising performance. Prior approaches such as Weights
Magnitude, SparseGPT, and Wanda, either concentrated solely on weights or
integrated weights with activations for sparsity. However, they overlooked the
informative gradients derived from pretrained large language models. In this
paper, we present a novel sparsity-centric pruning method for pretrained LLMs,
termed Gradient-based Language Model Pruner (GBLM-Pruner). GBLM-Pruner
leverages the first-order term of the Taylor expansion, operating in a
training-free manner by harnessing properly normalized gradients from a few
calibration samples to determine the importance pruning score, and
substantially outperforms competitive counterparts like SparseGPT and Wanda in
multiple benchmarks. Intriguing, after incorporating gradients, the
unstructured pruning method tends to reveal some structural patterns
post-pruning, which mirrors the geometric interdependence inherent in the LLMs'
parameter structure. Additionally, GBLM-Pruner functions without any subsequent
retraining or weight updates to maintain its simplicity as other counterparts.
Extensive evaluations on LLaMA-1 and LLaMA-2 across various language benchmarks
and perplexity show that GBLM-Pruner surpasses magnitude pruning, Wanda
(weights+activations) and SparseGPT (weights+activations+weight update) by
significant margins. Our code and models are available at
https://github.com/RocktimJyotiDas/GBLM-Pruner.
- Abstract(参考訳): 10億以上のパラメータを持つ大規模言語モデル(llm)は、ネットワークプルーニングの主要なターゲットであり、パフォーマンスを損なうことなくネットワークの重みの一部を削減することを目的としている。
ウェイトズ・マグニチュード、スパースGPT、ワンダといった以前のアプローチは、重みのみに集中するか、あるいは重み統合に重みを集中させ、スパーシティを活性化させた。
しかし、事前訓練された大きな言語モデルから得られた情報的勾配を見落としていた。
本稿では, グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対するスペーサ中心プルーニング手法を提案する。
GBLM-PrunerはTaylor拡張の第1次項を活用し、いくつかのキャリブレーションサンプルからの正規化勾配を適切に利用して重要プルーニングスコアを決定し、複数のベンチマークでSparseGPTやWandaのような競合相手よりも大幅に優れている。
興味深いことに、勾配を組み込んだ後、非構造化プルーニング法は、LLMのパラメータ構造に固有の幾何学的相互依存性を反映する、後プルーニングのいくつかの構造パターンを明らかにする傾向がある。
さらにgblm-pruner関数は、その後の再トレーニングや重み付けの更新なしに、他の機能と同様にシンプルさを維持する。
LLaMA-1 と LLaMA-2 の様々な言語ベンチマークおよびパープレクティリティに対する広範囲な評価は、GBLM-Pruner が大まかなプルーニング、Wanda (weights+activations)、SparseGPT (weights+activations+weight update) をかなり上回っていることを示している。
私たちのコードとモデルはhttps://github.com/rocktimjyotidas/gblm-prunerで利用可能です。
関連論文リスト
- AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models [20.958265043544603]
大規模言語モデル(LLM)は劇的に成長する。
これらのモデルの圧縮と高速化の傾向が増している。
本研究では, 粒度, アクティベーション, 勾配を適切に統合したハイブリッドプルーニング基準を提案する。
論文 参考訳(メタデータ) (2024-07-16T12:59:44Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。