Fugu-MT 論文翻訳(概要): A Simple Linear Patch Revives Layer-Pruned Large Language Models

論文の概要: A Simple Linear Patch Revives Layer-Pruned Large Language Models

arxiv url: http://arxiv.org/abs/2505.24680v1
Date: Fri, 30 May 2025 15:06:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:53.018517
Title: A Simple Linear Patch Revives Layer-Pruned Large Language Models
Title（参考訳）: 階層化された大規模言語モデルを復活させる単純な線形パッチ
Authors: Xinrui Chen, Haoli Bai, Tao Yuan, Ruikang Liu, Kang Zhao, Xianzhi Yu, Lu Hou, Tian Guan, Yonghong He, Chun Yuan,
Abstract要約: LLMを再生するプラグイン・アンド・プレイ技術であるLinearPatchを提案する。 LinearPatchは、質問応答ベンチマークで5層のLLaMA-3-8Bをプルーニングする際に、元のモデルの94.15%の性能を維持している。 5Kのサンプルだけで、リニアパッチの性能は1枚のコンピュータカードで30分以内に95.16%向上する。
参考スコア（独自算出の注目度）: 38.25088218910336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Layer pruning has become a popular technique for compressing large language models (LLMs) due to its simplicity. However, existing layer pruning methods often suffer from significant performance drops. We identify that this degradation stems from the mismatch of activation magnitudes across layers and tokens at the pruning interface. To address this, we propose LinearPatch, a simple plug-and-play technique to revive the layer-pruned LLMs. The proposed method adopts Hadamard transformation to suppress massive outliers in particular tokens, and channel-wise scaling to align the activation magnitudes. These operations can be fused into a single matrix, which functions as a patch to bridge the pruning interface with negligible inference overhead. LinearPatch retains up to 94.15% performance of the original model when pruning 5 layers of LLaMA-3-8B on the question answering benchmark, surpassing existing state-of-the-art methods by 4%. In addition, the patch matrix can be further optimized with memory efficient offline knowledge distillation. With only 5K samples, the retained performance of LinearPatch can be further boosted to 95.16% within 30 minutes on a single computing card.
Abstract（参考訳）: レイヤープルーニングは、その単純さから、大きな言語モデル(LLM)を圧縮する一般的な技術となっている。しかし、既存のレイヤープルーニング手法は、しばしば大幅な性能低下に悩まされる。この劣化は、プルーニングインターフェースにおける層やトークン間でのアクティベーションマグニチュードのミスマッチに起因する。そこで我々は,LinearPatchを提案する。LinearPatchは,レイヤを切断したLCMを再生するシンプルなプラグイン・アンド・プレイ技術である。提案手法は,アダマール変換を用いて,特定のトークンにおける大規模な外れ値の抑制と,アクティベーションサイズを調整したチャネルワイズスケーリングを実現する。これらの操作は単一のマトリックスに融合することができ、プルーニングインターフェースを無視可能な推論オーバーヘッドでブリッジするパッチとして機能する。 LinearPatchは、質問応答ベンチマークで5つのレイヤのLLaMA-3-8Bを刈り取り、既存の最先端メソッドを4%上回るパフォーマンスを維持している。さらに、パッチマトリックスはメモリ効率のよいオフライン知識蒸留によりさらに最適化することができる。 5Kのサンプルだけで、リニアパッチの性能は1枚のコンピュータカードで30分以内に95.16%向上する。

関連論文リスト

Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation [27.807507187324987]
大規模言語モデル(LLM)を圧縮するための有望な手法としてレイヤープルーニングが登場した本研究では, 任意の層を除去すると, 隠蔽状態の顕著な差が生じ, 性能が著しく低下することを明らかにした。我々は,このようなギャップをトレーニングなしで軽減する新しいプラグ・アンド・プレイ・レイヤ・プルーニング方式Prune&Compを提案する。
論文参考訳（メタデータ） (2025-07-24T09:07:20Z)
A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文参考訳（メタデータ） (2025-02-26T14:15:24Z)
FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文参考訳（メタデータ） (2025-01-24T18:46:37Z)
FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。 FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文参考訳（メタデータ） (2025-01-16T09:38:39Z)
A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文参考訳（メタデータ） (2024-07-23T08:40:27Z)
ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。 GLUEデータセット上の分類タスクについて広範な実験を行った。 GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文参考訳（メタデータ） (2024-07-11T09:35:08Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。 Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文参考訳（メタデータ） (2024-05-28T14:21:15Z)
Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-28T04:12:13Z)
BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。 SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文参考訳（メタデータ） (2024-02-18T12:44:15Z)
Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes [68.86687117368247]
バックプロパゲーションの不要な勾配のない構造化プルーニング手法であるBonsaiを紹介する。ボンサイは少ないリソースでより良い圧縮を実現するが、セミ構造化プルーニングによって生成されるモデルよりも2倍高速なモデルも生成する。この結果から,バックプロップを必要条件として取り除くことで,最先端の効率性と性能が向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-02-08T04:48:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。