論文の概要: DLP: Dynamic Layerwise Pruning in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23807v2
- Date: Mon, 02 Jun 2025 01:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.076858
- Title: DLP: Dynamic Layerwise Pruning in Large Language Models
- Title(参考訳): DLP: 大規模言語モデルにおける動的レイヤワイズプルーニング
- Authors: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang,
- Abstract要約: プルーニングはパラメータスケールの削減とLarge Language Models(LLM)の推論効率の向上のために広く採用されている。
動的レイヤワイズ・プルーニング(DLP)と呼ばれる新しい手法を提案する。
モデル重みと入力アクティベーション情報を統合することで各層の相対的重要性を適応的に決定し,それに応じてプルーニング率を割り当てる。
- 参考スコア(独自算出の注目度): 20.810186827378434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning has recently been widely adopted to reduce the parameter scale and improve the inference efficiency of Large Language Models (LLMs). Mainstream pruning techniques often rely on uniform layerwise pruning strategies, which can lead to severe performance degradation at high sparsity levels. Recognizing the varying contributions of different layers in LLMs, recent studies have shifted their focus toward non-uniform layerwise pruning. However, these approaches often rely on pre-defined values, which can result in suboptimal performance. To overcome these limitations, we propose a novel method called Dynamic Layerwise Pruning (DLP). This approach adaptively determines the relative importance of each layer by integrating model weights with input activation information, assigning pruning rates accordingly. Experimental results show that DLP effectively preserves model performance at high sparsity levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7% compared to state-of-the-art methods. Moreover, DLP is compatible with various existing LLM compression techniques and can be seamlessly integrated into Parameter-Efficient Fine-Tuning (PEFT). We release the code at [this https URL](https://github.com/ironartisan/DLP) to facilitate future research.
- Abstract(参考訳): 近年,パラメータスケールの削減とLarge Language Models(LLMs)の推論効率の向上のために,プルーニングが広く採用されている。
メインストリームプルーニング技術は、しばしば均一な階層的プルーニング戦略に依存しており、高いスパシティレベルでの大幅な性能劣化につながる可能性がある。
LLMにおける異なるレイヤの様々な貢献を認識した最近の研究は、一様でないレイヤワイドプルーニングに焦点を移している。
しかしながら、これらのアプローチは、しばしば事前定義された値に依存するため、最適以下のパフォーマンスをもたらす可能性がある。
これらの制約を克服するために,動的層ワイド・プルーニング (DLP) と呼ばれる新しい手法を提案する。
モデル重みと入力アクティベーション情報を統合することで各層の相対的重要性を適応的に決定し,それに応じてプルーニング率を割り当てる。
実験結果から,DLPは複数のLLMをまたいだ高空間レベルのモデル性能を効果的に維持できることが示された。
具体的には、70%の間隔で、DLPはLLaMA2-7Bの難易度を7.79削減し、最先端の手法と比較して平均精度を2.7%向上させる。
さらに、DLPは既存のLLM圧縮技術と互換性があり、パラメータ効率の良いファインチューニング(PEFT)にシームレスに統合することができる。
私たちは将来の研究を促進するために[ this https URL](https://github.com/ironartisan/DLP)でコードをリリースします。
関連論文リスト
- Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models [43.4962029013024]
大規模言語モデル(LLM)のプルーニングは、性能を保ちながら、モデルのサイズと計算の複雑さを減らすための有望なソリューションである。
LLMのためのShapley Value-based Non-Uniform Pruning (SV-NUP)法を提案する。
このアプローチは,各トランス層がモデル全体の性能に与える影響を定量的に評価し,各層に最適化されたプルーニング予算を割り当てることで,臨界パラメータを維持できる。
論文 参考訳(メタデータ) (2025-05-03T07:57:02Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
一般的な質問応答ベンチマークでは, あるレイヤを削除してもモデル性能には影響しないことがわかった。
驚くべきことに、この方法では、少数の層が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。