論文の概要: A Simple Linear Patch Revives Layer-Pruned Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24680v2
- Date: Sat, 25 Oct 2025 07:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.608635
- Title: A Simple Linear Patch Revives Layer-Pruned Large Language Models
- Title(参考訳): 階層化された大規模言語モデルを復活させる単純な線形パッチ
- Authors: Xinrui Chen, Haoli Bai, Tao Yuan, Ruikang Liu, Kang Zhao, Xianzhi Yu, Lu Hou, Tian Guan, Yonghong He, Chun Yuan,
- Abstract要約: 大規模言語モデル(LLM)の圧縮技術として広く使われているレイヤプルーニング(Layer pruning)が登場している。
textscLinearPatchはプルーニングインターフェイスで2つの操作を1つの行列に乗算する。
パッチはメモリ効率の悪いオフライン蒸留によって5Kの未ラベルのサンプルでさらに洗練され、1つのGPUでわずか30分で95.16%に保留できる。
- 参考スコア(独自算出の注目度): 58.056251480151104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layer pruning has emerged as a widely used technique for compressing large language models (LLMs). However, existing layer pruning approaches often incur substantial performance degradation. We identify the majority of this degradation to a single yet previously overlooked issue: \textit{the mismatch of activation magnitudes at the pruning interface}. The pre-interface activations exhibit significantly different scales from the post-interface ones, causing the distributional shift as it propagates through the remaining layers. To address this issue, we introduce \textsc{LinearPatch}, a lightweight and plug-and-play technique that fuses two operations into one matrix multiply at the pruning interface: (i) a Hadamard transformation that suppresses massive outliers at particular tokens and (ii) a channel-wise scaling that aligns activation statistics. On LLaMA-3-8B, \textsc{LinearPatch} preserves up to \textbf{94.15\%} of the original model's performance when pruning 5 out of 32 layers, outperforming the previous state of the art by \textbf{4\%}. The patch can be further refined with 5K unlabeled samples via memory-efficient offline distillation, pushing the retention to 95.16\% within only 30 minutes on a single GPU. Code is available at https://github.com/chenxinrui-tsinghua/LinearPatch.
- Abstract(参考訳): レイヤープルーニングは、大規模言語モデル(LLM)を圧縮するための広く使われている手法として登場した。
しかし、既存のレイヤプルーニングアプローチは、しばしば大幅なパフォーマンス劣化を引き起こす。
この分解の大部分は、以前見過ごされた1つの問題である: \textit{the mismatch of activation magnitudes at the pruning interface}。
前インタフェースアクティベーションは、後インタフェースのアクティベーションと大きく異なるスケールを示し、残りの層を伝播するにつれて分布シフトを引き起こす。
この問題に対処するために、軽量でプラグアンドプレイの技法である \textsc{LinearPatch} を紹介します。
(i)アダマール変換であって、特定のトークンにおける大規模な外れ値を抑制するもの
(ii)アクティベーション統計を整合させるチャネルワイズスケーリング。
LLaMA-3-8Bでは、 \textsc{LinearPatch} は、32層中5層をプルーニングすると、元のモデルの性能の \textbf{94.15\%} を保ち、以前の最先端を \textbf{4\%} で上回る。
パッチはメモリ効率のよいオフライン蒸留によって5Kの未ラベルサンプルでさらに洗練され、1つのGPUでわずか30分で95.16\%に保持される。
コードはhttps://github.com/chenxinrui-tsinghua/LinearPatchで公開されている。
関連論文リスト
- ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration [8.845117852325997]
ShiftLUTは、LUTベースのすべてのメソッドの中で、高い効率を維持しながら、最大の受容領域を実現する新しいフレームワークである。
従来の最先端のTinyLUTと比較して、ShiftLUTは3.8$times$大きな受容場を実現し、平均PSNRを0.21dB以上改善している。
論文 参考訳(メタデータ) (2026-03-01T04:00:23Z) - E$^3$-Pruner: Towards Efficient, Economical, and Effective Layer Pruning for Large Language Models [24.195465096877196]
レイヤープルーニング(Layer pruning)は、モデル圧縮のためのハードウェアフレンドリーなアプローチである。
微分可能なマスク最適化法と、エントロピー対応の適応的知識蒸留戦略である。
96%の精度で オリジナルのモデルから たったの0.8%の低下です
論文 参考訳(メタデータ) (2025-11-21T12:32:01Z) - Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation [43.822941944402544]
大きな言語モデルは自然言語処理タスクで優れていますが、その巨大なサイズは高い計算量とストレージ要求をもたらします。
近年の研究では, 層状プルーニングによるモデルサイズ削減が試みられている。
我々は、構造化プルーニングパラダイムを再検討し、いくつかの重要な制限を明らかにした。
論文 参考訳(メタデータ) (2025-10-17T04:27:06Z) - COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens [8.846552276586918]
プルーニングは有望な手法であるが、既存のプルーニング手法は限られている。
本研究では, (i) 埋め込み/LMヘッド層を縮小するために希少な語彙を併用し, (ii) 共通トケン重み付き活性化を用いたFFN中間チャネルをプルーするCompactを提案する。
Qwen、LLaMA、Gemmaファミリ(0.5B-70B)にわたる実験では、パラメータ、GPUメモリ、レイテンシを大幅に削減した最先端のダウンストリームのパフォーマンスが示されている。
論文 参考訳(メタデータ) (2025-09-08T16:07:06Z) - Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation [27.807507187324987]
大規模言語モデル(LLM)を圧縮するための有望な手法としてレイヤープルーニングが登場した
本研究では, 任意の層を除去すると, 隠蔽状態の顕著な差が生じ, 性能が著しく低下することを明らかにした。
我々は,このようなギャップをトレーニングなしで軽減する新しいプラグ・アンド・プレイ・レイヤ・プルーニング方式Prune&Compを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:07:20Z) - A3 : an Analytical Low-Rank Approximation Framework for Attention [14.649496050074735]
トレーニング後の低ランク近似フレームワークである$tt Attt 3$を提案する。
tt Attt 3$ は SoTA よりも優れたパフォーマンスを維持していることを示す。
また、KVキャッシュ圧縮、量子化、性能向上のための混合ランク代入など、$tt Att 3$の汎用性も示す。
論文 参考訳(メタデータ) (2025-05-19T10:29:32Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文 参考訳(メタデータ) (2024-07-11T09:35:08Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes [68.86687117368247]
バックプロパゲーションの不要な勾配のない構造化プルーニング手法であるBonsaiを紹介する。
ボンサイは少ないリソースでより良い圧縮を実現するが、セミ構造化プルーニングによって生成されるモデルよりも2倍高速なモデルも生成する。
この結果から,バックプロップを必要条件として取り除くことで,最先端の効率性と性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T04:48:26Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。