論文の概要: Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for
Pruning LLMs to High Sparsity
- arxiv url: http://arxiv.org/abs/2310.05175v1
- Date: Sun, 8 Oct 2023 14:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 11:56:04.648323
- Title: Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for
Pruning LLMs to High Sparsity
- Title(参考訳): Outlier Weighed Layerwise Sparsity (OWL) : LLMを高スパシティに加工するための秘密の欠如
- Authors: Lu Yin, You Wu, Zhenyu Zhang, Cheng-Yu Hsieh, Yaqing Wang, Yiling Jia,
Mykola Pechenizkiy, Yi Liang, Zhangyang Wang, Shiwei Liu
- Abstract要約: 本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法を提案する。
提案手法は,最先端の Wanda と SparseGPT を 61.22 と 6.80 のパープレキシティで70% に上回り,優れた性能向上を示した。
- 参考スコア(独自算出の注目度): 81.61101014156924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs), renowned for their remarkable performance,
present a challenge due to their colossal model size when it comes to practical
deployment. In response to this challenge, efforts have been directed toward
the application of traditional network pruning techniques to LLMs, uncovering a
massive number of parameters can be pruned in one-shot without hurting
performance. Building upon insights gained from pre-LLM models, prevailing LLM
pruning strategies have consistently adhered to the practice of uniformly
pruning all layers at equivalent sparsity. However, this observation stands in
contrast to the prevailing trends observed in the field of vision models, where
non-uniform layerwise sparsity typically yields substantially improved results.
To elucidate the underlying reasons for this disparity, we conduct a
comprehensive analysis of the distribution of token features within LLMs. In
doing so, we discover a strong correlation with the emergence of outliers,
defined as features exhibiting significantly greater magnitudes compared to
their counterparts in feature dimensions. Inspired by this finding, we
introduce a novel LLM pruning methodology that incorporates a tailored set of
non-uniform layerwise sparsity ratios specifically designed for LLM pruning,
termed as Outlier Weighed Layerwise sparsity (OWL). The sparsity ratio of OWL
is directly proportional to the outlier ratio observed within each layer,
facilitating a more effective alignment between layerwise weight sparsity and
outlier ratios. Our empirical evaluation, conducted across the LLaMA-V1 family
and OPT, spanning various benchmarks, demonstrates the distinct advantages
offered by OWL over previous methods. For instance, our approach exhibits a
remarkable performance gain, surpassing the state-of-the-art Wanda and
SparseGPT by 61.22 and 6.80 perplexity at a high sparsity level of 70%,
respectively.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その顕著なパフォーマンスで有名ですが、実際のデプロイメントに関しては、その余計なモデルサイズのため、課題があります。
この課題に対応するため、従来のネットワークプルーニング手法をLCMに適用する取り組みが進められており、大量のパラメータを1ショットでプルーニングすることができ、性能を損なわない。
LLM 以前のモデルから得られた知見に基づいて、LLM プルーニング戦略は、同等の間隔で全ての層を均一にプルーニングするプラクティスに一貫して従っている。
しかし、この観察は、非一様層状空間が典型的に顕著に改善された結果をもたらす視覚モデルにおける一般的な傾向とは対照的である。
この相違の原因を明らかにするため, LLMにおけるトークンの特徴分布の包括的解析を行った。
その結果,外乱の出現と強い相関関係がみられ,特徴次元における外乱の出現は特徴量に比べて著しく大きいことが判明した。
この発見に触発されて,llmプルーニング用に特別に設計された不均一な層別スパルジ率のセットを組み込んだ新しいllmプルーニング手法を,outlier weighted layerwise sparsity (owl) として紹介する。
OWLの疎度比は各層で観測される外層比と直接比例し, 層間重量の疎度と外層比とのより効果的な整合を容易にする。
LLaMA-V1ファミリーにまたがって実施した経験的評価と,様々なベンチマークにまたがるOPTは,OWLが従来手法よりも優れていることを示す。
例えば、我々の手法は、最先端のWandaとSparseGPTをそれぞれ61.22倍、6.80パープレキシティを70%高頻度で上回り、顕著な性能向上を示した。
関連論文リスト
- Compressing Large Language Models by Streamlining the Unimportant Layer [13.03815753589673]
大規模言語モデル(LLM)は、様々な自然言語のタスクやドメインに広く適用されている。
本稿では,レイヤプルーニングと層置換という2つの部分からなるLCM-Streamlineを提案する。
提案手法であるLCM-Streamlineは,従来の最先端(SOTA)モデルプルーニング法より優れていた。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
微調整作業におけるローランド適応 (LoRA) の層間特性について検討し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けました。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。
レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Mitigating the Alignment Tax of RLHF [77.7879015461373]
人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)は、アライメント税(アライメント税)としても知られる。
本稿では,RLHFモデル重みを補間するモデル平均化を提案し,より効率的な報酬税前処理を実現する。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。