論文の概要: Fluctuation-based Adaptive Structured Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2312.11983v1
- Date: Tue, 19 Dec 2023 09:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:12:42.019781
- Title: Fluctuation-based Adaptive Structured Pruning for Large Language Models
- Title(参考訳): ゆらぎに基づく大規模言語モデルのための適応的pruning
- Authors: Yongqi An, Xu Zhao, Tao Yu, Ming Tang, Jinqiao Wang
- Abstract要約: FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
- 参考スコア(独自算出の注目度): 44.217363567065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network Pruning is a promising way to address the huge computing resource
demands of the deployment and inference of Large Language Models (LLMs).
Retraining-free is important for LLMs' pruning methods. However, almost all of
the existing retraining-free pruning approaches for LLMs focus on unstructured
pruning, which requires specific hardware support for acceleration. In this
paper, we propose a novel retraining-free structured pruning framework for
LLMs, named FLAP (FLuctuation-based Adaptive Structured Pruning). It is
hardware-friendly by effectively reducing storage and enhancing inference
speed. For effective structured pruning of LLMs, we highlight three critical
elements that demand the utmost attention: formulating structured importance
metrics, adaptively searching the global compressed model, and implementing
compensation mechanisms to mitigate performance loss. First, FLAP determines
whether the output feature map is easily recoverable when a column of weight is
removed, based on the fluctuation pruning metric. Then it standardizes the
importance scores to adaptively determine the global compressed model
structure. At last, FLAP adds additional bias terms to recover the output
feature maps using the baseline values. We thoroughly evaluate our approach on
a variety of language benchmarks. Without any retraining, our method
significantly outperforms the state-of-the-art methods, including LLM-Pruner
and the extension of Wanda in structured pruning. The code is released at
https://github.com/CASIA-IVA-Lab/FLAP.
- Abstract(参考訳): Network Pruningは、LLM(Large Language Models)のデプロイメントと推論における巨大なコンピューティングリソース要求に対処する、有望な方法である。
LLMの刈り取りにはリトレーニングフリーが重要である。
しかし、LLMの既存のリトレーニングフリープルーニングアプローチのほとんどは、アクセラレーションのためのハードウェアサポートを必要とする非構造化プルーニングに焦点を当てている。
本稿では, FLAP (FLuctuation-based Adaptive Structured Pruning) という, LLM のための新しい学習不要な構造化プルーニングフレームワークを提案する。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
llmの効果的な構造的プルーニングには,構造化重要度メトリクスの定式化,グローバル圧縮モデルの適応的探索,パフォーマンス損失を軽減するための補償機構の実装という,最も注意を要する3つの重要な要素が強調される。
まず、フラップは、ゆらぎプルーニング計量に基づいて、重みの列が取り除かれたときに出力特徴マップが容易に回復できるかどうかを判定する。
そして、重要度スコアを標準化し、グローバル圧縮モデル構造を適応的に決定する。
最後に、FLAPはベースライン値を使用して出力特徴写像を復元するためのバイアス項を追加する。
さまざまな言語ベンチマークに対するアプローチを徹底的に評価する。
LLM-Pruner や Wanda の拡張など,構造化プルーニングにおける最先端の手法よりも優れています。
コードはhttps://github.com/CASIA-IVA-Lab/FLAPで公開されている。
関連論文リスト
- Leveraging Large Language Models for Structure Learning in Prompted Weak
Supervision [24.866270447991752]
私たちのStructure Refining Moduleは、ベンチマークタスクで最大12.7ポイント、PromptedWSパイプラインを改善しています。
また、包括的アブレーション実験と分析により、効率と性能のトレードオフについても検討する。
論文 参考訳(メタデータ) (2024-02-02T19:45:39Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [59.74018108967818]
低ランク適応(LoRA)は、安価に微調整された大型事前訓練モデル(LPM)に現れている。
LoRAPruneは、メモリ効率のよい推論のための正確でコンパクトなモデルを提供する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Automatic Attention Pruning: Improving and Automating Model Pruning
using Attentions [5.445935252764351]
プルーニングは、リソース制約のあるエッジデバイスにそれらをデプロイするために、ディープラーニングモデルを圧縮するための有望なアプローチである。
本稿では,適応型,注意型,構造化型プルーニング手法であるAutomatic Attention Pruning (AAP)を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:47:57Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。