論文の概要: SlimGPT: Layer-wise Structured Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2412.18110v1
- Date: Tue, 24 Dec 2024 02:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:19.778786
- Title: SlimGPT: Layer-wise Structured Pruning for Large Language Models
- Title(参考訳): SlimGPT:大規模言語モデルのための階層的構造化プルーニング
- Authors: Gui Ling, Ziyang Wang, Yuliang Yan, Qingwen Liu,
- Abstract要約: Batched Greedy Pruning for rapid and near-optimal Pruning
インクリメンタルプルーニング比(Incrmental Pruning Ratio) - 非一様プルーニング戦略で、性能劣化を低減する。
LLaMAベンチマークの実験結果から,SlimGPTは他の手法よりも優れ,最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 15.252798256418279
- License:
- Abstract: Large language models (LLMs) have garnered significant attention for their remarkable capabilities across various domains, whose vast parameter scales present challenges for practical deployment. Structured pruning is an effective method to balance model performance with efficiency, but performance restoration under computational resource constraints is a principal challenge in pruning LLMs. Therefore, we present a low-cost and fast structured pruning method for LLMs named SlimGPT based on the Optimal Brain Surgeon framework. We propose Batched Greedy Pruning for rapid and near-optimal pruning, which enhances the accuracy of head-wise pruning error estimation through grouped Cholesky decomposition and improves the pruning efficiency of FFN via Dynamic Group Size, thereby achieving approximate local optimal pruning results within one hour. Besides, we explore the limitations of layer-wise pruning from the perspective of error accumulation and propose Incremental Pruning Ratio, a non-uniform pruning strategy to reduce performance degradation. Experimental results on the LLaMA benchmark show that SlimGPT outperforms other methods and achieves state-of-the-art results.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な機能に対して大きな注目を集めている。
構造化プルーニング(Structured pruning)はモデル性能と効率のバランスをとる効果的な手法であるが、計算資源制約下での性能回復はLLMのプルーニングにおいて大きな課題である。
そこで我々は, 最適脳サージオンフレームワークに基づく, SlimGPT と呼ばれるLPMの低コストかつ高速な定型プルーニング手法を提案する。
グループ化チョレスキー分解による頭部切削誤差推定の精度を向上し,動的グループサイズによるFFNの切削効率を向上し,局所的最適切削結果の近似化を1時間以内に達成する。
さらに,エラー蓄積の観点から階層的プルーニングの限界について検討し,不均一なプルーニング戦略であるインクリメンタルプルーニング比を提案する。
LLaMAベンチマークの実験結果から,SlimGPTは他の手法よりも優れ,最先端の結果が得られた。
関連論文リスト
- Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - OPTISHEAR: Towards Efficient and Adaptive Pruning of Large Language Models via Evolutionary Optimization [18.57876883968734]
適応型LLMプルーニングのための効率的な進化的最適化フレームワークである textbftextscOptiShear を紹介する。
我々のフレームワークは,メタプルーニングメトリック上に構築された効率的な検索空間と,迅速な評価のためのモデルワイド再構成誤差の2つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2025-02-15T09:17:38Z) - FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment [58.030196381554745]
大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-16T04:12:50Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。