論文の概要: Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation
- arxiv url: http://arxiv.org/abs/2507.18212v1
- Date: Thu, 24 Jul 2025 09:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.318221
- Title: Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation
- Title(参考訳): Prune&Comp:Magnitude Compensation を用いた反復プルーニングによる層式LCMのフリーランチ
- Authors: Xinrui Chen, Hongxing Zhang, Fanyi Zeng, Yongxian Wei, Yizhi Wang, Xitong Ling, Guanghao Li, Chun Yuan,
- Abstract要約: 大規模言語モデル(LLM)を圧縮するための有望な手法としてレイヤープルーニングが登場した
本研究では, 任意の層を除去すると, 隠蔽状態の顕著な差が生じ, 性能が著しく低下することを明らかにした。
我々は,このようなギャップをトレーニングなしで軽減する新しいプラグ・アンド・プレイ・レイヤ・プルーニング方式Prune&Compを提案する。
- 参考スコア(独自算出の注目度): 27.807507187324987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layer pruning has emerged as a promising technique for compressing large language models (LLMs) while achieving acceleration proportional to the pruning ratio. In this work, we identify that removing any layer induces a significant magnitude gap in hidden states, resulting in substantial performance degradation. To address this issue, we propose Prune&Comp, a novel plug-and-play layer pruning scheme that leverages magnitude compensation to mitigate such gaps in a training-free manner. Specifically, we first estimate the magnitude gap caused by layer removal and then eliminate this gap by rescaling the remaining weights offline, with zero runtime overhead incurred. We further demonstrate the advantages of Prune&Comp through an iterative pruning strategy. When integrated with an iterative prune-and-compensate loop, Prune&Comp consistently enhances existing layer pruning metrics. For instance, when 5 layers of LLaMA-3-8B are pruned using the prevalent block influence metric, Prune&Comp nearly halves the perplexity and retains 93.19\% of the original model's question-answering performance, outperforming the baseline by 4.01%.
- Abstract(参考訳): レイヤープルーニングは大きな言語モデル(LLM)を圧縮する上で有望な手法として登場し、プルーニング比に比例した加速を実現している。
本研究では, 任意の層を除去すると, 隠蔽状態の顕著な差が生じ, 性能が著しく低下することを明らかにした。
この問題に対処するために, Prune&Comp を提案する。Prune&Comp は, 大きさ補償を利用して, トレーニング不要な方法でこれらのギャップを緩和する新しいプラグ・アンド・プレイ・レイヤ・プルーニング方式である。
具体的には、まず最初に、層除去による大きさギャップを推定し、残りの重みをオフラインにすることで、ランタイムのオーバーヘッドをゼロにすることで、このギャップを解消する。
さらに、反復的なプルーニング戦略によりPrune&Compの利点を実証する。
反復的なPrune-and-compensateループと統合されると、Prune&Compは既存のレイヤプルーニングメトリクスを一貫して強化する。
例えば、LLaMA-3-8Bの5つの層がブロック影響測定値を使用してプルーニングされると、Prune&Compは難易度をほぼ半減し、元のモデルの問合せ性能の93.19\%を保持し、ベースラインを4.01%上回る。
関連論文リスト
- High-Layer Attention Pruning with Rescaling [14.141903038286362]
プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である
本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。
我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
論文 参考訳(メタデータ) (2025-07-02T17:15:05Z) - A Simple Linear Patch Revives Layer-Pruned Large Language Models [38.25088218910336]
LLMを再生するプラグイン・アンド・プレイ技術であるLinearPatchを提案する。
LinearPatchは、質問応答ベンチマークで5層のLLaMA-3-8Bをプルーニングする際に、元のモデルの94.15%の性能を維持している。
5Kのサンプルだけで、リニアパッチの性能は1枚のコンピュータカードで30分以内に95.16%向上する。
論文 参考訳(メタデータ) (2025-05-30T15:06:08Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes [68.86687117368247]
バックプロパゲーションの不要な勾配のない構造化プルーニング手法であるBonsaiを紹介する。
ボンサイは少ないリソースでより良い圧縮を実現するが、セミ構造化プルーニングによって生成されるモデルよりも2倍高速なモデルも生成する。
この結果から,バックプロップを必要条件として取り除くことで,最先端の効率性と性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T04:48:26Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。
ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。
おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文 参考訳(メタデータ) (2021-06-19T02:09:25Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Layer Pruning via Fusible Residual Convolutional Block for Deep Neural
Networks [15.64167076052513]
レイヤプルーニングは、同じFLOPとパラメータの数でプルーニングされる場合、推論時間と実行時のメモリ使用量が少なくなる。
残差畳み込みブロック(ResConv)を用いた簡単な層切断法を提案する。
本手法は, 異なるデータセット上での最先端技術に対する圧縮と加速の優れた性能を実現する。
論文 参考訳(メタデータ) (2020-11-29T12:51:16Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。