論文の概要: SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11120v1
- Date: Tue, 10 Jun 2025 02:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.481742
- Title: SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models
- Title(参考訳): SDMPrune: 効率的な大規模言語モデルのための自己蒸留型MLPプルーニング
- Authors: Hourun Zhu, Chengchao Shen,
- Abstract要約: 原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。
提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。
提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
- 参考スコア(独自算出の注目度): 3.962074007736394
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In spite of strong performance achieved by LLMs, the costs of their deployment are unaffordable. For the compression of LLMs, gradient-based pruning methods present promising effectiveness. However, in these methods, the gradient computation with one-hot labels ignore the potential predictions on other words, thus missing key information for generative capability of the original model. To address this issue, we introduce a self-distillation loss during the pruning phase (rather than post-training) to fully exploit the predictions of the original model, thereby obtaining more accurate gradient information for pruning. Moreover, we find that, compared to attention modules, the predictions of LLM are less sensitive to multilayer perceptron (MLP) modules, which take up more than $5 \times$ parameters (LLaMA3.2-1.2B). To this end, we focus on the pruning of MLP modules, to significantly compress LLM without obvious performance degradation. Experimental results on extensive zero-shot benchmarks demonstrate that our method significantly outperforms existing pruning methods. Furthermore, our method achieves very competitive performance among 1B-scale open source LLMs. The source code and trained weights are available at https://github.com/visresearch/SDMPrune.
- Abstract(参考訳): LLMによる高い性能にもかかわらず、その展開のコストは計り知れない。
LLMの圧縮のために、勾配式プルーニング法は有望な有効性を示す。
しかし, この手法では, 1ホットラベルを用いた勾配計算では, 他の単語に対する潜在的な予測が無視されるため, 元のモデルの生成能力に関する重要な情報が欠落している。
この問題に対処するため,本研究では,プルーニング段階(後処理ではなく)に自己蒸留損失を導入し,元のモデルの予測を完全に活用し,プルーニングのためのより正確な勾配情報を得る。
さらに、注意モジュールと比較して、LLMの予測は多層パーセプトロン(MLP)モジュールに対する感度が低く、パラメータ(LLaMA3.2-1.2B)は5ドル以上であることがわかった。
そこで本研究では,MLPモジュールのプルーニングに着目し,LCMを著しく圧縮し,性能劣化を生じさせないようにした。
広範囲なゼロショットベンチマークによる実験結果から,本手法が既存のプルーニング法より有意に優れていることが示された。
さらに,提案手法は,1BスケールのオープンソースLLM間で非常に競合的な性能を実現する。
ソースコードとトレーニングされたウェイトはhttps://github.com/visresearch/SDMPrune.comで公開されている。
関連論文リスト
- DLP: Dynamic Layerwise Pruning in Large Language Models [20.810186827378434]
プルーニングはパラメータスケールの削減とLarge Language Models(LLM)の推論効率の向上のために広く採用されている。
動的レイヤワイズ・プルーニング(DLP)と呼ばれる新しい手法を提案する。
モデル重みと入力アクティベーション情報を統合することで各層の相対的重要性を適応的に決定し,それに応じてプルーニング率を割り当てる。
論文 参考訳(メタデータ) (2025-05-27T07:35:00Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Certified Robustness for Large Language Models with Self-Denoising [42.916661225753145]
本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。
本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
論文 参考訳(メタデータ) (2023-07-14T05:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。