論文の概要: Pruning Foundation Models for High Accuracy without Retraining
- arxiv url: http://arxiv.org/abs/2410.15567v1
- Date: Mon, 21 Oct 2024 01:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:22:00.932819
- Title: Pruning Foundation Models for High Accuracy without Retraining
- Title(参考訳): リトレーニングを伴わない高精度基礎モデルの構築
- Authors: Pu Zhao, Fei Sun, Xuan Shen, Pinrui Yu, Zhenglun Kong, Yanzhi Wang, Xue Lin,
- Abstract要約: 基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 48.256389781305415
- License:
- Abstract: Despite the superior performance, it is challenging to deploy foundation models or large language models (LLMs) due to their massive parameters and computations. While pruning is a promising technique to reduce model size and accelerate the inference, the traditional pruning techniques can hardly be applied for LLMs as they need to finetune the model on the full dataset with multiple epochs consuming massive data and hardware resources. To deal with this problem, post-training pruning methods are proposed to prune LLMs in one-shot without retraining. However, their accuracy after pruning may suffer from certain performance degradation due to the lack of retraining with massive data. To address this issue, in this paper, we first formulate the post-training problem for layer-wise LLM compression to simultaneously prune multiple weights in LLMs. Next, we provide an optimal solution for this problem and design our post-training pruning algorithm for both unstructured and semi-structured sparsity. Our extensive experiments demonstrate the superior performance of the proposed methods in comparison to SOTA baselines across various LLM families including transformer-based LLMs and Mamba-based LLMs. Code link: https://github.com/piuzha/APT
- Abstract(参考訳): 優れたパフォーマンスにもかかわらず、膨大なパラメータと計算のために基礎モデルや大規模言語モデル(LLM)をデプロイすることは困難である。
プルーニングはモデルのサイズを減らし、推論を加速する有望なテクニックであるが、従来のプルーニング技術は、大量のデータとハードウェアリソースを消費する複数のエポックでモデルをフルデータセットに微調整する必要があるため、LLMに適用することは困難である。
この問題に対処するために, 再訓練を伴わずに, ワンショットでLLMをプルークするポストトレーニングプルーニング法を提案する。
しかし, 刈り取り後の精度は, 大量データによる再トレーニングの欠如により, 一定の性能低下に悩まされる可能性がある。
この問題に対処するために,本論文ではまず,レイヤワイドLLM圧縮におけるポストトレーニング問題を,LLMの重み付けを同時に行うように定式化する。
次に、この問題に対する最適解を提供し、非構造的および半構造的両方の空間に対して、トレーニング後のプルーニングアルゴリズムを設計する。
提案手法は, トランスフォーマー系LLMやマンバ系LLMを含む各種LLMファミリーのSOTAベースラインと比較して, 優れた性能を示す。
コードリンク:https://github.com/piuzha/APT
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Scaling Law for Post-training after Model Pruning [24.9935656519956]
トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、様々なドメインやタスクに広く採用されている。
これを軽減するため、高性能を維持しつつ、より効率的なモデルを作成するためにモデルプルーニング技術が開発されている。
本稿では,LLMの学習後要件について検討し,学習後データの最適量を決定するためのスケーリング法を提案する。
論文 参考訳(メタデータ) (2024-11-15T15:28:42Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。