論文の概要: A Simple and Effective Pruning Approach for Large Language Models
- arxiv url: http://arxiv.org/abs/2306.11695v1
- Date: Tue, 20 Jun 2023 17:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 13:14:56.549435
- Title: A Simple and Effective Pruning Approach for Large Language Models
- Title(参考訳): 大規模言語モデルに対する単純かつ効果的なプルーニング手法
- Authors: Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter
- Abstract要約: 大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
- 参考スコア(独自算出の注目度): 77.99484372602383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As their size increases, Large Languages Models (LLMs) are natural candidates
for network pruning methods: approaches that drop a subset of network weights
while striving to preserve performance. Existing methods, however, require
either retraining, which is rarely affordable for billion-scale LLMs, or
solving a weight reconstruction problem reliant on second-order information,
which may also be computationally expensive. In this paper, we introduce a
novel, straightforward yet effective pruning method, termed Wanda (Pruning by
Weights and activations), designed to induce sparsity in pretrained LLMs.
Motivated by the recent observation of emergent large magnitude features in
LLMs, our approach prune weights with the smallest magnitudes multiplied by the
corresponding input activations, on a per-output basis. Notably, Wanda requires
no retraining or weight update, and the pruned LLM can be used as is. We
conduct a thorough evaluation of our method on LLaMA across various language
benchmarks. Wanda significantly outperforms the established baseline of
magnitude pruning and competes favorably against recent methods involving
intensive weight update. Code is available at
https://github.com/locuslab/wanda.
- Abstract(参考訳): そのサイズが大きくなるにつれて、LLM(Large Languages Models)は、ネットワークプルーニング手法の自然な候補となる。
しかし、既存の手法では、数十億ドル規模のLLMにはめったに手に入らない再訓練や、2次情報に依存する重み付け問題の解決が求められている。
本稿では,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を提案する。
llmsにおける創発的大等級特徴の最近の観測に動機づけられ,我々は,入力アクティベーションに乗じた最小等級の重みを,出力単位に設定した。
特筆すべきは、wandaはリトレーニングやウェイトアップデートを必要とせず、pruned llmをそのまま使用できることだ。
我々は,様々な言語ベンチマークを用いてllama法を徹底的に評価する。
ワンダは確立されたマグニチュードプルーニングの基準線を著しく上回り、集中的な重量更新を含む最近の手法と好適に競合する。
コードはhttps://github.com/locuslab/wandaで入手できる。
関連論文リスト
- Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Fast and Effective Weight Update for Pruned Large Language Models [0.0]
大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。
最近のアプローチでは、微調整を完全に無視するか、レイヤワイド更新を試みた。
乗算器の交互方向法に基づく切削層に対する高速かつ効率的な重み更新アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-01T23:10:23Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。