論文の概要: Beyond Size: How Gradients Shape Pruning Decisions in Large Language
Models
- arxiv url: http://arxiv.org/abs/2311.04902v1
- Date: Wed, 8 Nov 2023 18:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 14:48:38.320767
- Title: Beyond Size: How Gradients Shape Pruning Decisions in Large Language
Models
- Title(参考訳): サイズを超えて - 大規模言語モデルにおける粒度決定の方法
- Authors: Rocktim Jyoti Das and Liqun Ma and Zhiqiang Shen
- Abstract要約: 数十億以上のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットである。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
GBLM-Pruner は,大刈り,Wanda (weights+activations) およびSparseGPT (weights+activations+weight update) を大きく上回っている。
- 参考スコア(独自算出の注目度): 27.488197964786806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) with a billion or more parameters are prime
targets for network pruning, which aims to reduce a portion of the network
weights without compromising performance. Prior approaches such as Weights
Magnitude, SparseGPT, and Wanda, either concentrated solely on weights or
integrated weights with activations for sparsity. However, they overlooked the
informative gradients derived from pretrained large language models. In this
paper, we present a novel sparsity-centric pruning method for pretrained LLMs,
termed Gradient-based Language Model Pruner (GBLM-Pruner). GBLM-Pruner
leverages the first-order term of the Taylor expansion, operating in a
training-free manner by harnessing properly normalized gradients from a few
calibration samples to determine the importance pruning score, and
substantially outperforms competitive counterparts like SparseGPT and Wanda in
multiple benchmarks. Intriguing, after incorporating gradients, the
unstructured pruning method tends to reveal some structural patterns
post-pruning, which mirrors the geometric interdependence inherent in the LLMs'
parameter structure. Additionally, GBLM-Pruner functions without any subsequent
retraining or weight updates to maintain its simplicity as other counterparts.
Extensive evaluations on LLaMA-1 and LLaMA-2 across various language benchmarks
and perplexity show that GBLM-Pruner surpasses magnitude pruning, Wanda
(weights+activations) and SparseGPT (weights+activations+weight update) by
significant margins. Our code and models are available at
https://github.com/RocktimJyotiDas/GBLM-Pruner.
- Abstract(参考訳): 10億以上のパラメータを持つ大規模言語モデル(llm)は、ネットワークプルーニングの主要なターゲットであり、パフォーマンスを損なうことなくネットワークの重みの一部を削減することを目的としている。
ウェイトズ・マグニチュード、スパースGPT、ワンダといった以前のアプローチは、重みのみに集中するか、あるいは重み統合に重みを集中させ、スパーシティを活性化させた。
しかし、事前訓練された大きな言語モデルから得られた情報的勾配を見落としていた。
本稿では, グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対するスペーサ中心プルーニング手法を提案する。
GBLM-PrunerはTaylor拡張の第1次項を活用し、いくつかのキャリブレーションサンプルからの正規化勾配を適切に利用して重要プルーニングスコアを決定し、複数のベンチマークでSparseGPTやWandaのような競合相手よりも大幅に優れている。
興味深いことに、勾配を組み込んだ後、非構造化プルーニング法は、LLMのパラメータ構造に固有の幾何学的相互依存性を反映する、後プルーニングのいくつかの構造パターンを明らかにする傾向がある。
さらにgblm-pruner関数は、その後の再トレーニングや重み付けの更新なしに、他の機能と同様にシンプルさを維持する。
LLaMA-1 と LLaMA-2 の様々な言語ベンチマークおよびパープレクティリティに対する広範囲な評価は、GBLM-Pruner が大まかなプルーニング、Wanda (weights+activations)、SparseGPT (weights+activations+weight update) をかなり上回っていることを示している。
私たちのコードとモデルはhttps://github.com/rocktimjyotidas/gblm-prunerで利用可能です。
関連論文リスト
- ShortGPT: Layers in Large Language Models are More Redundant Than You
Expect [39.791695729504006]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - A Simple and Effective Pruning Approach for Large Language Models [64.14329119421305]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [59.74018108967818]
低ランク適応(LoRA)は、安価に微調整された大型事前訓練モデル(LPM)に現れている。
LoRAPruneは、メモリ効率のよい推論のための正確でコンパクトなモデルを提供する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - DeepCuts: Single-Shot Interpretability based Pruning for BERT [0.0]
我々のスコアリング関数は、より関連するタスクベースのスコアをネットワークパラメータに割り当てることができることを示す。
また、プルーニングマスクを解析した結果、標準的な測定値から得られたマスクとは大きく異なることがわかった。
論文 参考訳(メタデータ) (2022-12-27T07:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。