論文の概要: Reassessing Layer Pruning in LLMs: New Insights and Methods
- arxiv url: http://arxiv.org/abs/2411.15558v1
- Date: Sat, 23 Nov 2024 13:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:02.760201
- Title: Reassessing Layer Pruning in LLMs: New Insights and Methods
- Title(参考訳): LLMにおけるレイヤプルーニングの再評価:新しい洞察と方法
- Authors: Yao Lu, Hao Cheng, Yujie Fang, Zeyu Wang, Jiaheng Wei, Dongwei Xu, Qi Xuan, Xiaoniu Yang, Zhaowei Zhu,
- Abstract要約: 単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
- 参考スコア(独自算出の注目度): 24.394438652261982
- License:
- Abstract: Although large language models (LLMs) have achieved remarkable success across various domains, their considerable scale necessitates substantial computational resources, posing significant challenges for deployment in resource-constrained environments. Layer pruning, as a simple yet effective compression method, removes layers of a model directly, reducing computational overhead. However, what are the best practices for layer pruning in LLMs? Are sophisticated layer selection metrics truly effective? Does the LoRA (Low-Rank Approximation) family, widely regarded as a leading method for pruned model fine-tuning, truly meet expectations when applied to post-pruning fine-tuning? To answer these questions, we dedicate thousands of GPU hours to benchmarking layer pruning in LLMs and gaining insights across multiple dimensions. Our results demonstrate that a simple approach, i.e., pruning the final 25\% of layers followed by fine-tuning the \texttt{lm\_head} and the remaining last three layer, yields remarkably strong performance. Following this guide, we prune Llama-3.1-8B-It and obtain a model that outperforms many popular LLMs of similar size, such as ChatGLM2-6B, Vicuna-7B-v1.5, Qwen1.5-7B and Baichuan2-7B. We release the optimal model weights on Huggingface, and the code is available on GitHub.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な領域で顕著な成功を収めてきたが、その規模は相当な計算資源を必要としており、資源に制約のある環境に展開する上で大きな課題となっている。
レイヤプルーニング(Layer pruning)は、単純だが効果的な圧縮方法であり、モデルのレイヤを直接削除し、計算オーバーヘッドを減らす。
しかし、LCMにおけるレイヤプルーニングのベストプラクティスは何か。
高度なレイヤ選択のメトリクスは本当に効果的か?
LoRA(Low-Rank Approximation)ファミリーは、プルーニングモデルファインチューニングの先駆的手法として広く見なされているが、後プルーニングファインチューニングに適用した場合、本当に期待に応えているのだろうか?
これらの質問に答えるために、私たちはLLMのベンチマーク層プルーニングに数千のGPU時間を費やし、複数の次元にわたる洞察を得ました。
以上の結果から,最後の25倍の層を刈り取るという単純な手法と,残りの3層を微調整することで,極めて高い性能が得られることが示された。
このガイドに従って、Llama-3.1-8B-Itをプルークし、ChatGLM2-6B、Vicuna-7B-v1.5、Qwen1.5-7B、Baichuan2-7Bなど、同様の大きさの多くの人気のあるLLMを上回る性能のモデルを得る。
Huggingfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手可能です。
関連論文リスト
- Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models [54.787308652357794]
FinerCutは変圧器ネットワークのための微細な層プルーニングの新たな形式である。
Llama3-8Bは25%の層を除去し,Llama3-70Bは95%の層を除去した。
論文 参考訳(メタデータ) (2024-05-28T14:21:15Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes [72.09861461921663]
我々は,小型で高速かつ高精度な刈り込みモデルを実現するための,勾配のない摂動型刈り込み法を開発した。
また,Hugingface Open LLMリーダーボード上での4/6タスクにおける最先端のパフォーマンスを実現する,単一のA6000を用いた新しいサブ2Bモデルを作成するために,Bonsaiを利用した。
論文 参考訳(メタデータ) (2024-02-08T04:48:26Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - Fast and Effective Weight Update for Pruned Large Language Models [0.0]
大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。
最近のアプローチでは、微調整を完全に無視するか、レイヤワイド更新を試みた。
乗算器の交互方向法に基づく切削層に対する高速かつ効率的な重み更新アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-01T23:10:23Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。