論文の概要: Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for
Pruning LLMs to High Sparsity
- arxiv url: http://arxiv.org/abs/2310.05175v2
- Date: Fri, 16 Feb 2024 22:38:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:35:40.713030
- Title: Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for
Pruning LLMs to High Sparsity
- Title(参考訳): Outlier Weighed Layerwise Sparsity (OWL) : LLMを高スパシティに加工するための秘密の欠如
- Authors: Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang, Yiling Jia,
Mykola Pechenizkiy, Yi Liang, Zhangyang Wang, Shiwei Liu
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
- 参考スコア(独自算出の注目度): 81.61101014156924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs), renowned for their remarkable performance
across diverse domains, present a challenge when it comes to practical
deployment due to their colossal model size. In response to this challenge,
efforts have been directed toward the application of traditional network
pruning techniques to LLMs, uncovering a massive number of parameters that can
be pruned in one-shot without hurting performance. Prevailing LLM pruning
strategies have consistently adhered to the practice of uniformly pruning all
layers at equivalent sparsity, resulting in robust performance. However, this
observation stands in contrast to the prevailing trends observed in the field
of vision models, where non-uniform layerwise sparsity typically yields
stronger results. To understand the underlying reasons for this disparity, we
conduct a comprehensive study and discover a strong correlation with the
emergence of activation outliers in LLMs. Inspired by this finding, we
introduce a novel LLM pruning methodology that incorporates a tailored set of
non-uniform layerwise sparsity ratios, termed as Outlier Weighed Layerwise
sparsity (OWL). The sparsity ratio of OWL is proportional to the outlier ratio
observed within each layer, facilitating a more effective alignment between
layerwise weight sparsity and outlier ratios. Our empirical evaluation,
conducted across the LLaMA-V1 family and OPT, spanning various benchmarks,
demonstrates the distinct advantages offered by OWL over previous methods. For
instance, OWL exhibits a remarkable performance gain, surpassing the
state-of-the-art Wanda and SparseGPT by 61.22 and 6.80 perplexity at a high
sparsity level of 70%, respectively, while delivering 2x end-to-end inference
speed-up in the DeepSparse inference engine. Codes are available at
https://github.com/luuyin/OWL.
- Abstract(参考訳): 大規模言語モデル(llm)は、さまざまなドメインにまたがる優れたパフォーマンスで知られていますが、そのコロッサルモデルのサイズのため、実用的なデプロイメントでは課題があります。
この課題に対して、従来のネットワークプルーニング手法をLCMに適用することに向けた取り組みが行われ、パフォーマンスを損なうことなく一発でプルーニングできる膨大なパラメータが明らかになった。
一般的なLLMプルーニング戦略は、全ての層を同等の間隔で均一にプルーニングするプラクティスに一貫して従って、堅牢な性能を実現している。
しかしながら、この観察は、非一様層状空間が典型的により強い結果をもたらす視覚モデルで観測される一般的な傾向とは対照的である。
この相違の原因を理解するため、我々は総合的研究を行い、LSMにおけるアクティベーション・アウトリアの出現と強い相関関係を見出した。
この発見に触発されて,不均一層幅比(OWL, Outlier Weighed Layerwise sparsity, Outlier Weighed Layerwise sparsity, Outlier Weighed Layerwise sparsity, OWL)を調整したLLM刈り取り手法を導入した。
OWLの疎度比は各層で観測される外層比に比例し, 層間重量の疎度と外層比との配向がより効果的である。
LLaMA-V1ファミリーにまたがって実施した経験的評価と,様々なベンチマークにまたがるOPTは,OWLが従来手法よりも優れていることを示す。
例えばowlは、最先端のwandaとsparsegptを70%高いスパーシティレベルでそれぞれ61.22と6.80パープレキシティで上回り、deepsparse推論エンジンで2倍のエンドツーエンド推論スピードアップを提供するという、驚くべきパフォーマンス向上を示している。
コードはhttps://github.com/luuyin/owlで入手できる。
関連論文リスト
- MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Can LLMs predict the convergence of Stochastic Gradient Descent? [5.206475868803433]
大規模なランダム化モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。
このような驚くべきパフォーマンスの1つの驚くべき例は、マルコフシステムの原則を満たす、最近特定されたタスクである。
論文 参考訳(メタデータ) (2024-08-03T10:35:59Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。
ローランド適応(LoRA)はこの問題を軽減するために提案されている。
微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。