論文の概要: Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes
- arxiv url: http://arxiv.org/abs/2402.05406v1
- Date: Thu, 8 Feb 2024 04:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-09 16:34:02.095073
- Title: Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes
- Title(参考訳): everyone prune now: フォワードパスのみによるllmの構造化pruning
- Authors: Lucio Dery, Steven Kolawole, Jean-Francois Kagey, Virginia Smith,
Graham Neubig, Ameet Talwalkar
- Abstract要約: 我々は,小型で高速かつ高精度な刈り込みモデルを実現するための,勾配のない摂動型刈り込み法を開発した。
また,Hugingface Open LLMリーダーボード上での4/6タスクにおける最先端のパフォーマンスを実現する,単一のA6000を用いた新しいサブ2Bモデルを作成するために,Bonsaiを利用した。
- 参考スコア(独自算出の注目度): 72.09861461921663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the generational gap in available hardware between lay practitioners
and the most endowed institutions, LLMs are becoming increasingly inaccessible
as they grow in size. Whilst many approaches have been proposed to compress
LLMs to make their resource consumption manageable, these methods themselves
tend to be resource intensive, putting them out of the reach of the very user
groups they target. In this work, we explore the problem of structured pruning
of LLMs using only forward passes. We seek to empower practitioners to prune
models so large that their available hardware has just enough memory to run
inference. We develop Bonsai, a gradient-free, perturbative pruning method
capable of delivering small, fast, and accurate pruned models.
We observe that Bonsai outputs pruned models that (i) outperform those
generated by more expensive gradient-based structured pruning methods, and (ii)
are twice as fast (with comparable accuracy) as those generated by
semi-structured pruning methods requiring comparable resources as Bonsai. We
also leverage Bonsai to produce a new sub-2B model using a single A6000 that
yields state-of-the-art performance on 4/6 tasks on the Huggingface Open LLM
leaderboard.
- Abstract(参考訳): 一般の実践者と最も支援された機関の間で利用可能なハードウェアの世代間ギャップを考えると、LLMは規模が大きくなるにつれてアクセスしにくくなっている。
llmを圧縮してリソース消費を管理可能にする多くのアプローチが提案されているが、これらのメソッド自体はリソース集約的であり、ターゲットとする非常にユーザグループの範囲外になる傾向がある。
本研究では,前進パスのみを用いたLCMの構造的プルーニングの問題について検討する。
私たちは実践者に、利用可能なハードウェアが推論を実行するのに十分なメモリを持つほど大きなモデルをプルーンする権限を与えたいと考えています。
我々は,小型で高速かつ高精度な刈り込みモデルを提供できる,勾配のない摂動型刈り込み法であるBonsaiを開発した。
ボンサイは刈り取ったモデルを出力し
(i)より高価な勾配に基づく構造的刈り取り法で生成されたものよりも優れており、
(ii) は半構造化プルーニング法で生成したものより2倍高速(精度は同等)である。
また,1つのa6000を用いて新しいサブ2bモデルを作成し,hughingface open llm leaderboard上で4/6タスクで最先端のパフォーマンスを実現する。
関連論文リスト
- Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。
彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。
LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - Lightweight and Post-Training Structured Pruning for On-Device Large Lanaguage Models [11.93284417365518]
我々は,ハイブリッド・グラニュラリティ・プルーニング戦略を用いた軽量なポストトレーニング構造化プルーニング手法Compumを紹介する。
Compは、LLM-Prunerと比較して20%のプルーニング比でLLaMA-2-7Bモデルの性能を6.13%向上させる。
論文 参考訳(メタデータ) (2025-01-25T16:03:58Z) - FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information [33.01180010689081]
CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。
まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。
その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T04:03:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Network Pruning via Resource Reallocation [75.85066435085595]
rEsource rEalLocation (PEEL) を経由したネットワーク・プルーニングという,シンプルで効果的なチャネル・プルーニング手法を提案する。
PEELは、最初に事前に定義されたバックボーンを構築し、その上でリソースの移動を行い、少ない情報層からより重要な層へ1ラウンドでパラメータをシフトする。
実験結果から,PEELによって発見された構造は,各種プルーニング条件下での最先端のプルーニングアルゴリズムと競合する性能を示した。
論文 参考訳(メタデータ) (2021-03-02T16:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。