Fugu-MT 論文翻訳(概要): Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models

論文の概要: Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models

arxiv url: http://arxiv.org/abs/2311.04902v2
Date: Mon, 8 Apr 2024 22:42:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 20:06:52.128126
Title: Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models
Title（参考訳）: サイズを超えて: 大規模言語モデルにおけるグラディエント・プルーニングの決定方法
Authors: Rocktim Jyoti Das, Mingjie Sun, Liqun Ma, Zhiqiang Shen,
Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
参考スコア（独自算出の注目度）: 30.246821533532017
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) with billions of parameters are prime targets for network pruning, removing some model weights without hurting performance. Prior approaches such as magnitude pruning, SparseGPT, and Wanda, either concentrated solely on weights or integrated weights with activations for sparsity. However, they overlooked the informative gradients derived from pretrained LLMs. In this paper, we present a novel sparsity-centric pruning method for pretrained LLMs, termed Gradient-based Language Model Pruner (GBLM-Pruner). GBLM-Pruner leverages the first-order term of the Taylor expansion, operating in a training-free manner by harnessing properly normalized gradients from a few calibration samples to determine the pruning metric, and substantially outperforms competitive counterparts like SparseGPT and Wanda in multiple benchmarks. Intriguingly, by incorporating gradients, unstructured pruning with our method tends to reveal some structural patterns, which mirrors the geometric interdependence inherent in the LLMs' parameter structure. Additionally, GBLM-Pruner functions without any subsequent retraining or weight updates to maintain its simplicity as other counterparts. Extensive evaluations on LLaMA-1 and LLaMA-2 across various benchmarks show that GBLM-Pruner surpasses magnitude pruning, Wanda and SparseGPT by significant margins. We further extend our approach on Vision Transformer. Our code and models are available at https://github.com/VILA-Lab/GBLM-Pruner.
Abstract（参考訳）: 数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。マグニチュードプルーニング、スパースGPT、ワンダといった以前のアプローチは、重みのみに集中するか、疎度のための活性化を伴う統合重みに集中していた。しかし、彼らは事前訓練されたLSMから得られた情報的勾配を見落としていた。本稿では, グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対するスペーサ中心プルーニング手法を提案する。 GBLM-PrunerはTaylor拡張の第1次項を活用し、いくつかのキャリブレーションサンプルからの正規化勾配を適切に利用してプルーニングメトリックを決定し、複数のベンチマークでSparseGPTやWandaのような競合相手よりも大幅に優れている。興味深いことに、勾配を組み込んだ非構造プルーニングは、LLMのパラメータ構造に固有の幾何学的相互依存性を反映する構造パターンを明らかにする傾向にある。さらに、GBLM-Prunerは後続の再トレーニングや重み付けの更新なしに機能し、その単純さを他の機能として維持する。 LLaMA-1 と LLaMA-2 を様々なベンチマークで広範囲に評価した結果,GBLM-Pruner はプルーニング,ワンダ,スパースGPT を大きく上回っていることがわかった。視覚変換器のアプローチをさらに拡張する。私たちのコードとモデルはhttps://github.com/VILA-Lab/GBLM-Pruner.comで公開されています。

関連論文リスト

SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文参考訳（メタデータ） (2025-06-10T02:24:32Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models [20.958265043544603]
大規模言語モデル(LLM)は劇的に成長する。これらのモデルの圧縮と高速化の傾向が増している。本研究では, 粒度, アクティベーション, 勾配を適切に統合したハイブリッドプルーニング基準を提案する。
論文参考訳（メタデータ） (2024-07-16T12:59:44Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文参考訳（メタデータ） (2024-03-06T17:04:18Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文参考訳（メタデータ） (2023-06-20T17:18:20Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。