論文の概要: A Simple Linear Patch Revives Layer-Pruned Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24680v1
- Date: Fri, 30 May 2025 15:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.018517
- Title: A Simple Linear Patch Revives Layer-Pruned Large Language Models
- Title(参考訳): 階層化された大規模言語モデルを復活させる単純な線形パッチ
- Authors: Xinrui Chen, Haoli Bai, Tao Yuan, Ruikang Liu, Kang Zhao, Xianzhi Yu, Lu Hou, Tian Guan, Yonghong He, Chun Yuan,
- Abstract要約: LLMを再生するプラグイン・アンド・プレイ技術であるLinearPatchを提案する。
LinearPatchは、質問応答ベンチマークで5層のLLaMA-3-8Bをプルーニングする際に、元のモデルの94.15%の性能を維持している。
5Kのサンプルだけで、リニアパッチの性能は1枚のコンピュータカードで30分以内に95.16%向上する。
- 参考スコア(独自算出の注目度): 38.25088218910336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layer pruning has become a popular technique for compressing large language models (LLMs) due to its simplicity. However, existing layer pruning methods often suffer from significant performance drops. We identify that this degradation stems from the mismatch of activation magnitudes across layers and tokens at the pruning interface. To address this, we propose LinearPatch, a simple plug-and-play technique to revive the layer-pruned LLMs. The proposed method adopts Hadamard transformation to suppress massive outliers in particular tokens, and channel-wise scaling to align the activation magnitudes. These operations can be fused into a single matrix, which functions as a patch to bridge the pruning interface with negligible inference overhead. LinearPatch retains up to 94.15% performance of the original model when pruning 5 layers of LLaMA-3-8B on the question answering benchmark, surpassing existing state-of-the-art methods by 4%. In addition, the patch matrix can be further optimized with memory efficient offline knowledge distillation. With only 5K samples, the retained performance of LinearPatch can be further boosted to 95.16% within 30 minutes on a single computing card.
- Abstract(参考訳): レイヤープルーニングは、その単純さから、大きな言語モデル(LLM)を圧縮する一般的な技術となっている。
しかし、既存のレイヤープルーニング手法は、しばしば大幅な性能低下に悩まされる。
この劣化は、プルーニングインターフェースにおける層やトークン間でのアクティベーションマグニチュードのミスマッチに起因する。
そこで我々は,LinearPatchを提案する。LinearPatchは,レイヤを切断したLCMを再生するシンプルなプラグイン・アンド・プレイ技術である。
提案手法は,アダマール変換を用いて,特定のトークンにおける大規模な外れ値の抑制と,アクティベーションサイズを調整したチャネルワイズスケーリングを実現する。
これらの操作は単一のマトリックスに融合することができ、プルーニングインターフェースを無視可能な推論オーバーヘッドでブリッジするパッチとして機能する。
LinearPatchは、質問応答ベンチマークで5つのレイヤのLLaMA-3-8Bを刈り取り、既存の最先端メソッドを4%上回るパフォーマンスを維持している。
さらに、パッチマトリックスはメモリ効率のよいオフライン知識蒸留によりさらに最適化することができる。
5Kのサンプルだけで、リニアパッチの性能は1枚のコンピュータカードで30分以内に95.16%向上する。
関連論文リスト
- A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文 参考訳(メタデータ) (2024-07-11T09:35:08Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。