論文の概要: LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation
- arxiv url: http://arxiv.org/abs/2412.06419v1
- Date: Mon, 09 Dec 2024 11:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:18.184503
- Title: LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation
- Title(参考訳): LLM-BIP:Block-Wiseフォワード・コンパタンス・プロパゲーションを用いた大規模言語モデルのための構造化プルーニング
- Authors: Haihang Wu,
- Abstract要約: ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable performance across various language tasks, but their widespread deployment is impeded by their large size and high computational costs. Structural pruning is a prevailing technique used to introduce sparsity into pre-trained models and facilitate direct hardware acceleration during inference by removing redundant connections (structurally-grouped parameters), such as channels and attention heads. Existing structural pruning approaches often employ either global or layer-wise pruning criteria; however, they are hindered by ineffectiveness stemming from inaccurate evaluation of connection importance. Global pruning methods typically assess component importance using near-zero and unreliable gradients, while layer-wise pruning approaches encounter significant pruning error accumulation issues. To this end, we propose a more accurate pruning metric based on the block-wise importance score propagation, termed LLM-BIP. Specifically, LLM-BIP precisely evaluates connection importance by gauging its influence on the respective transformer block output, which can be efficiently approximated in a single forward pass through an upper bound derived from the assumption of Lipschitz continuity. We evaluate the proposed method using LLaMA-7B, Vicuna-7B, and LLaMA-13B across common zero-shot tasks. The results demonstrate that our approach achieves an average of 3.26% increase in accuracy for common reasoning tasks compared to previous best baselines. It also reduces perplexity by 14.09 and 68.76 on average for the WikiText2 dataset and PTB dataset, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な言語タスクにおいて顕著な性能を示してきたが、その大規模化と計算コストの増大によって、その広範な展開が妨げられている。
構造プルーニングは、事前訓練されたモデルにスパーシリティを導入し、チャネルやアテンションヘッドなどの冗長な接続(構造的にグループ化されたパラメータ)を取り除き、推論中に直接ハードウェアアクセラレーションを促進するためによく使われる技法である。
既存の構造的プルーニングアプローチは、大域的あるいは層的プルーニング基準を採用することが多いが、接続の重要性の不正確な評価から生じる非効率性によって妨げられている。
グローバルプルーニング手法は一般に、ほぼゼロに近い勾配と信頼できない勾配を用いてコンポーネントの重要度を評価するが、レイヤワイズプルーニング手法は、重大なプルーニングエラーの蓄積問題に遭遇する。
そこで本研究では,LLM-BIPと呼ばれるブロック単位の重要スコア伝搬に基づくより正確なプルーニング指標を提案する。
具体的には、LLM-BIPは、リプシッツ連続性の仮定から導かれる上界を通る1つの前方通過において効率よく近似できる、各変圧器ブロック出力への影響をゲージすることで、接続重要度を正確に評価する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
その結果,従来の最良基準よりも平均3.26%の精度向上が得られた。
また、WikiText2データセットとTBデータセットでそれぞれ平均して14.09と68.76のパープレキシティを減少させる。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Efficient Pruning of Large Language Model with Adaptive Estimation Fusion [45.423001839959156]
本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。
複雑な構造と多層構造の結果に基づいて、粗粒度と細粒度の推定を適応的に融合させることができる。
その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。
論文 参考訳(メタデータ) (2024-03-16T04:12:50Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。