論文の概要: A Simple and Effective Pruning Approach for Large Language Models
- arxiv url: http://arxiv.org/abs/2306.11695v2
- Date: Fri, 6 Oct 2023 17:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:39:54.047107
- Title: A Simple and Effective Pruning Approach for Large Language Models
- Title(参考訳): 大規模言語モデルに対する単純かつ効果的なプルーニング手法
- Authors: Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter
- Abstract要約: 大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
- 参考スコア(独自算出の注目度): 64.14329119421305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As their size increases, Large Languages Models (LLMs) are natural candidates
for network pruning methods: approaches that drop a subset of network weights
while striving to preserve performance. Existing methods, however, require
either retraining, which is rarely affordable for billion-scale LLMs, or
solving a weight reconstruction problem reliant on second-order information,
which may also be computationally expensive. In this paper, we introduce a
novel, straightforward yet effective pruning method, termed Wanda (Pruning by
Weights and activations), designed to induce sparsity in pretrained LLMs.
Motivated by the recent observation of emergent large magnitude features in
LLMs, our approach prunes weights with the smallest magnitudes multiplied by
the corresponding input activations, on a per-output basis. Notably, Wanda
requires no retraining or weight update, and the pruned LLM can be used as is.
We conduct a thorough evaluation of our method Wanda on LLaMA and LLaMA-2
across various language benchmarks. Wanda significantly outperforms the
established baseline of magnitude pruning and performs competitively against
recent method involving intensive weight update. Code is available at
https://github.com/locuslab/wanda.
- Abstract(参考訳): そのサイズが大きくなるにつれて、LLM(Large Languages Models)は、ネットワークプルーニング手法の自然な候補となる。
しかし、既存の手法では、数十億ドル規模のLLMにはめったに手に入らない再訓練や、2次情報に依存する重み付け問題の解決が求められている。
本稿では,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を提案する。
LLMの創発的大規模特徴の最近の観測により,本手法は,出力毎の入力アクティベーションによって乗算される最小の重みを重み付けする。
特筆すべきは、wandaはリトレーニングやウェイトアップデートを必要とせず、pruned llmをそのまま使用できることだ。
我々は,LLaMAとLLaMA-2におけるWanda法を,様々な言語ベンチマークで徹底的に評価する。
ワンダは確立されたマグニチュードプルーニングの基準線を著しく上回り、集中重量更新を含む最近の手法と競合する。
コードはhttps://github.com/locuslab/wandaで入手できる。
関連論文リスト
- BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Fast and Optimal Weight Update for Pruned Large Language Models [0.0]
乗算器の交互方向法(ADMM)に基づく切削層に対する高速かつ最適な重み更新アルゴリズムを提案する。
提案アルゴリズムは,多種多様な大規模言語モデル(LLM)における最先端プルーニング性能を実現する。
論文 参考訳(メタデータ) (2024-01-01T23:10:23Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。