論文の概要: Fluctuation-based Adaptive Structured Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.11983v1
- Date: Tue, 19 Dec 2023 09:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:12:42.019781
- Title: Fluctuation-based Adaptive Structured Pruning for Large Language Models
- Title(参考訳): ゆらぎに基づく大規模言語モデルのための適応的pruning
- Authors: Yongqi An, Xu Zhao, Tao Yu, Ming Tang, Jinqiao Wang
- Abstract要約: FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
- 参考スコア(独自算出の注目度): 44.217363567065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network Pruning is a promising way to address the huge computing resource
demands of the deployment and inference of Large Language Models (LLMs).
Retraining-free is important for LLMs' pruning methods. However, almost all of
the existing retraining-free pruning approaches for LLMs focus on unstructured
pruning, which requires specific hardware support for acceleration. In this
paper, we propose a novel retraining-free structured pruning framework for
LLMs, named FLAP (FLuctuation-based Adaptive Structured Pruning). It is
hardware-friendly by effectively reducing storage and enhancing inference
speed. For effective structured pruning of LLMs, we highlight three critical
elements that demand the utmost attention: formulating structured importance
metrics, adaptively searching the global compressed model, and implementing
compensation mechanisms to mitigate performance loss. First, FLAP determines
whether the output feature map is easily recoverable when a column of weight is
removed, based on the fluctuation pruning metric. Then it standardizes the
importance scores to adaptively determine the global compressed model
structure. At last, FLAP adds additional bias terms to recover the output
feature maps using the baseline values. We thoroughly evaluate our approach on
a variety of language benchmarks. Without any retraining, our method
significantly outperforms the state-of-the-art methods, including LLM-Pruner
and the extension of Wanda in structured pruning. The code is released at
https://github.com/CASIA-IVA-Lab/FLAP.
- Abstract(参考訳): Network Pruningは、LLM(Large Language Models)のデプロイメントと推論における巨大なコンピューティングリソース要求に対処する、有望な方法である。
LLMの刈り取りにはリトレーニングフリーが重要である。
しかし、LLMの既存のリトレーニングフリープルーニングアプローチのほとんどは、アクセラレーションのためのハードウェアサポートを必要とする非構造化プルーニングに焦点を当てている。
本稿では, FLAP (FLuctuation-based Adaptive Structured Pruning) という, LLM のための新しい学習不要な構造化プルーニングフレームワークを提案する。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
llmの効果的な構造的プルーニングには,構造化重要度メトリクスの定式化,グローバル圧縮モデルの適応的探索,パフォーマンス損失を軽減するための補償機構の実装という,最も注意を要する3つの重要な要素が強調される。
まず、フラップは、ゆらぎプルーニング計量に基づいて、重みの列が取り除かれたときに出力特徴マップが容易に回復できるかどうかを判定する。
そして、重要度スコアを標準化し、グローバル圧縮モデル構造を適応的に決定する。
最後に、FLAPはベースライン値を使用して出力特徴写像を復元するためのバイアス項を追加する。
さまざまな言語ベンチマークに対するアプローチを徹底的に評価する。
LLM-Pruner や Wanda の拡張など,構造化プルーニングにおける最先端の手法よりも優れています。
コードはhttps://github.com/CASIA-IVA-Lab/FLAPで公開されている。
関連論文リスト
- Scaling Law for Post-training after Model Pruning [24.9935656519956]
トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、様々なドメインやタスクに広く採用されている。
これを軽減するため、高性能を維持しつつ、より効率的なモデルを作成するためにモデルプルーニング技術が開発されている。
本稿では,LLMの学習後要件について検討し,学習後データの最適量を決定するためのスケーリング法を提案する。
論文 参考訳(メタデータ) (2024-11-15T15:28:42Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information [33.01180010689081]
CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。
まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。
その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T04:03:27Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Reconstruct the Pruned Model without Any Retraining [23.235907813011174]
本稿では,線形補間に基づく適応再構成(LIAR)フレームワークを提案する。
LIARはバックプロパゲーションや再トレーニングを必要とせず、様々なプルーニング基準やモジュールと互換性がある。
GLUE, SQuAD, WikiText, 常識推論などのベンチマークによる評価の結果, LIARはパラメータの50%を除去しても, 98%の精度でBERTモデルを維持できることがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:30:44Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。