論文の概要: Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes
- arxiv url: http://arxiv.org/abs/2402.05406v2
- Date: Fri, 9 Feb 2024 19:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:09:08.039894
- Title: Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes
- Title(参考訳): everyone prune now: フォワードパスのみによるllmの構造化pruning
- Authors: Lucio Dery, Steven Kolawole, Jean-Fran\c{c}ois Kagy, Virginia Smith,
Graham Neubig, Ameet Talwalkar
- Abstract要約: 我々は,小型で高速かつ高精度な刈り込みモデルを実現するための,勾配のない摂動型刈り込み法を開発した。
また,Hugingface Open LLMリーダーボード上での4/6タスクにおける最先端のパフォーマンスを実現する,単一のA6000を用いた新しいサブ2Bモデルを作成するために,Bonsaiを利用した。
- 参考スコア(独自算出の注目度): 72.09861461921663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the generational gap in available hardware between lay practitioners
and the most endowed institutions, LLMs are becoming increasingly inaccessible
as they grow in size. Whilst many approaches have been proposed to compress
LLMs to make their resource consumption manageable, these methods themselves
tend to be resource intensive, putting them out of the reach of the very user
groups they target. In this work, we explore the problem of structured pruning
of LLMs using only forward passes. We seek to empower practitioners to prune
models so large that their available hardware has just enough memory to run
inference. We develop Bonsai, a gradient-free, perturbative pruning method
capable of delivering small, fast, and accurate pruned models.
We observe that Bonsai outputs pruned models that (i) outperform those
generated by more expensive gradient-based structured pruning methods, and (ii)
are twice as fast (with comparable accuracy) as those generated by
semi-structured pruning methods requiring comparable resources as Bonsai. We
also leverage Bonsai to produce a new sub-2B model using a single A6000 that
yields state-of-the-art performance on 4/6 tasks on the Huggingface Open LLM
leaderboard.
- Abstract(参考訳): 一般の実践者と最も支援された機関の間で利用可能なハードウェアの世代間ギャップを考えると、LLMは規模が大きくなるにつれてアクセスしにくくなっている。
llmを圧縮してリソース消費を管理可能にする多くのアプローチが提案されているが、これらのメソッド自体はリソース集約的であり、ターゲットとする非常にユーザグループの範囲外になる傾向がある。
本研究では,前進パスのみを用いたLCMの構造的プルーニングの問題について検討する。
私たちは実践者に、利用可能なハードウェアが推論を実行するのに十分なメモリを持つほど大きなモデルをプルーンする権限を与えたいと考えています。
我々は,小型で高速かつ高精度な刈り込みモデルを提供できる,勾配のない摂動型刈り込み法であるBonsaiを開発した。
ボンサイは刈り取ったモデルを出力し
(i)より高価な勾配に基づく構造的刈り取り法で生成されたものよりも優れており、
(ii) は半構造化プルーニング法で生成したものより2倍高速(精度は同等)である。
また,1つのa6000を用いて新しいサブ2bモデルを作成し,hughingface open llm leaderboard上で4/6タスクで最先端のパフォーマンスを実現する。
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。