Fugu-MT 論文翻訳(概要): A Simple and Effective Pruning Approach for Large Language Models

論文の概要: A Simple and Effective Pruning Approach for Large Language Models

arxiv url: http://arxiv.org/abs/2306.11695v2
Date: Fri, 6 Oct 2023 17:11:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 08:39:54.047107
Title: A Simple and Effective Pruning Approach for Large Language Models
Title（参考訳）: 大規模言語モデルに対する単純かつ効果的なプルーニング手法
Authors: Mingjie Sun, Zhuang Liu, Anna Bair, J. Zico Kolter
Abstract要約: 大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
参考スコア（独自算出の注目度）: 64.14329119421305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As their size increases, Large Languages Models (LLMs) are natural candidates for network pruning methods: approaches that drop a subset of network weights while striving to preserve performance. Existing methods, however, require either retraining, which is rarely affordable for billion-scale LLMs, or solving a weight reconstruction problem reliant on second-order information, which may also be computationally expensive. In this paper, we introduce a novel, straightforward yet effective pruning method, termed Wanda (Pruning by Weights and activations), designed to induce sparsity in pretrained LLMs. Motivated by the recent observation of emergent large magnitude features in LLMs, our approach prunes weights with the smallest magnitudes multiplied by the corresponding input activations, on a per-output basis. Notably, Wanda requires no retraining or weight update, and the pruned LLM can be used as is. We conduct a thorough evaluation of our method Wanda on LLaMA and LLaMA-2 across various language benchmarks. Wanda significantly outperforms the established baseline of magnitude pruning and performs competitively against recent method involving intensive weight update. Code is available at https://github.com/locuslab/wanda.
Abstract（参考訳）: そのサイズが大きくなるにつれて、LLM(Large Languages Models)は、ネットワークプルーニング手法の自然な候補となる。しかし、既存の手法では、数十億ドル規模のLLMにはめったに手に入らない再訓練や、2次情報に依存する重み付け問題の解決が求められている。本稿では,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を提案する。 LLMの創発的大規模特徴の最近の観測により,本手法は,出力毎の入力アクティベーションによって乗算される最小の重みを重み付けする。特筆すべきは、wandaはリトレーニングやウェイトアップデートを必要とせず、pruned llmをそのまま使用できることだ。我々は,LLaMAとLLaMA-2におけるWanda法を,様々な言語ベンチマークで徹底的に評価する。ワンダは確立されたマグニチュードプルーニングの基準線を著しく上回り、集中重量更新を含む最近の手法と競合する。コードはhttps://github.com/locuslab/wandaで入手できる。

関連論文リスト

Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳（メタデータ） (2024-10-12T09:21:45Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
Fast and Effective Weight Update for Pruned Large Language Models [0.0]
大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。最近のアプローチでは、微調整を完全に無視するか、レイヤワイド更新を試みた。乗算器の交互方向法に基づく切削層に対する高速かつ効率的な重み更新アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-01T23:10:23Z)
Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文参考訳（メタデータ） (2023-11-08T18:59:54Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。