論文の概要: GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation
- arxiv url: http://arxiv.org/abs/2602.14649v1
- Date: Mon, 16 Feb 2026 11:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.37915
- Title: GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation
- Title(参考訳): GradMAP: グラディエントメトリックとプロジェクション補償による高速なレイヤプルーニング
- Authors: Hao Liu, Guangyan Li, Wensheng Zhang, Yongqiang Tang,
- Abstract要約: GradMAP は textbfGradient textbfMetric textbfAnd textbfProjection compensation を用いた高速な層プルーニング手法である。
本研究では,textbfGradient textbfMetric textbfAnd textbfProjectionを補正した高速層解析法GradMAPを提案する。
- 参考スコア(独自算出の注目度): 23.236542656505417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) exhibit strong reasoning abilities, but their high computational costs limit their practical deployment. Recent studies reveal significant redundancy in LLMs layers, making layer pruning an active research topic. Layer pruning research primarily focuses on two aspects: measuring layer importance and recovering performance after pruning. Unfortunately, the present works fail to simultaneously maintain pruning performance and efficiency. In this study, we propose GradMAP, a faster layer pruning method with \textbf{Grad}ient \textbf{M}etric \textbf{A}nd \textbf{P}rojection compensation, which consists of two stages. In the first stage, we introduce a novel metric based on gradient magnitudes, enabling a global assessment of layer importance. Note that, it requires only a single backward propagation step per pruning decision, substantially enhancing pruning efficiency. In the second stage, we first analyze the layers with the largest mean shift resulting from pruning, and then incorporate a simple yet effective projection compensation matrix to correct this drift in one step. In this way, the degradation of model performance caused by layer pruning is effectively alleviated. Extensive experiments show that GradMAP outperforms previous layer pruning methods in both pruning speed (achieving an average $4\times$ speedup) and performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な推論能力を示すが、計算コストが高いため、実用的デプロイメントが制限される。
近年の研究では、LLM層に顕著な冗長性が示されており、層プレーニングが活発な研究トピックとなっている。
レイヤプルーニングの研究は、主に、レイヤの重要度を測定し、プルーニング後のパフォーマンスを回復する2つの側面に焦点を当てている。
残念なことに、現在の作業は刈り取り性能と効率を同時に維持することができない。
本研究では,2段階からなるGradMAP法を提案する。
第一段階では、勾配度に基づく新しい計量を導入し、レイヤーの重要性のグローバルな評価を可能にした。
なお、プルーニングの効率を大幅に向上させるため、プルーニング決定毎に1つの後方伝播ステップしか必要としない。
第2段階では、まず、プルーニングによって生じる平均シフトが最大である層を解析し、その後、このドリフトを1ステップで補正するために、単純で効果的なプロジェクション補償行列を組み込む。
このように、層切削によるモデル性能の劣化を効果的に緩和する。
大規模な実験により、GradMAPは、プルーニング速度(平均4/times$ Speedup)とパフォーマンスの両方で、以前のレイヤプルーニング手法よりも優れていたことが示されている。
関連論文リスト
- GradPruner: Gradient-Guided Layer Pruning Enabling Efficient Fine-Tuning and Inference for LLMs [10.61152477422108]
GradPrunerは、微調整の初期段階において、勾配によってガイドされる大規模言語モデルのレイヤをプルークすることができる。
結果、GradPrunerはパラメータを40%削減し、精度は0.99%しか低下していないことがわかった。
論文 参考訳(メタデータ) (2026-01-27T11:41:26Z) - A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs [13.000188564679998]
本稿では,再現カーネルHilbert空間内の異なるレイヤの出力の相関関係を解析することにより,大規模言語モデルにおけるPatch-like'の特徴関係を明らかにする。
本研究では, 連続層を上から下へ動的に選択・融合するスライディング層マージ法について, 予め定義された類似度閾値に従って提案する。
提案手法は,ゼロショット推論性能と再学習後の回復品質の両方において,既存のプルーニング技術より優れる。
論文 参考訳(メタデータ) (2025-02-26T14:15:24Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Effective Layer Pruning Through Similarity Metric Perspective [0.0]
ディープニューラルネットワークは、認知タスクを解決する機械学習において、主要なパラダイムとなっている。
これらのモデルから構造を抽出することは、ネットワークの複雑さを減らすための簡単なアプローチである。
層プルーニングは、しばしば高い圧縮速度でネットワーク予測能力(すなわち精度)を損なう。
この研究は、プルーニング手法によって追求されるすべての基礎特性を満たす効果的なレイヤ・プルーニング戦略を導入する。
論文 参考訳(メタデータ) (2024-05-27T11:54:51Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - Sparse Training via Boosting Pruning Plasticity with Neuroregeneration [79.78184026678659]
本研究では, プラスティック性の観点から, 訓練を通しての刈り込みの効果について検討した。
ゼロコスト神経再生(GraNet)と動的スパーストレーニング(DST)変異(GraNet-ST)を併用した段階的プラニング(gradual pruning)法を考案した。
おそらく最も印象的なのは、ImageNet上のResNet-50との大きなマージンで、さまざまな密集したスパースメソッドに対するスパース・ツー・スパーストレーニングのパフォーマンスを初めて向上させたことだ。
論文 参考訳(メタデータ) (2021-06-19T02:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。