論文の概要: BESA: Pruning Large Language Models with Blockwise Parameter-Efficient
Sparsity Allocation
- arxiv url: http://arxiv.org/abs/2402.16880v1
- Date: Sun, 18 Feb 2024 12:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:06:24.900751
- Title: BESA: Pruning Large Language Models with Blockwise Parameter-Efficient
Sparsity Allocation
- Title(参考訳): besa: ブロックワイズパラメータ効率のよいスパルシティアロケーションによる大規模言語モデルのpruning
- Authors: Peng Xu, Wenqi Shao, Mengzhao Chen, Shitao Tang, Kaipeng Zhang, Peng
Gao, Fengwei An, Yu Qiao, Ping Luo
- Abstract要約: 大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
BESAは最先端のパフォーマンスを実現し、たった5時間で単一のA100 GPU上で7Bから70Bパラメータを持つLLaMA1やLLaMA2のようなLLMを効率よく刈り取る
- 参考スコア(独自算出の注目度): 56.32997656670112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated outstanding performance in
various tasks, such as text summarization, text question-answering, and etc.
While their performance is impressive, the computational footprint due to their
vast number of parameters can be prohibitive. Existing solutions such as
SparseGPT and Wanda attempt to alleviate this issue through weight pruning.
However, their layer-wise approach results in significant perturbation to the
model's output and requires meticulous hyperparameter tuning, such as the
pruning rate, which can adversely affect overall model performance. To address
this, this paper introduces a novel LLM pruning technique dubbed blockwise
parameter-efficient sparsity allocation (BESA) by applying a blockwise
reconstruction loss. In contrast to the typical layer-wise pruning techniques,
BESA is characterized by two distinctive attributes: i) it targets the overall
pruning error with respect to individual transformer blocks, and ii) it
allocates layer-specific sparsity in a differentiable manner, both of which
ensure reduced performance degradation after pruning. Our experiments show that
BESA achieves state-of-the-art performance, efficiently pruning LLMs like
LLaMA1, and LLaMA2 with 7B to 70B parameters on a single A100 GPU in just five
hours. Code is available at
\href{https://github.com/OpenGVLab/LLMPrune-BESA}{here}.
- Abstract(参考訳): 大規模言語モデル(llm)は,テキスト要約やテキスト質問処理など,さまざまなタスクにおいて優れた性能を示している。
彼らの性能は印象的だが、膨大な数のパラメータによる計算フットプリントは禁止される。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
しかし、それらの層的なアプローチはモデルの出力にかなりの摂動をもたらし、モデル全体の性能に悪影響を及ぼすプラニングレートのような細心の注意深いハイパーパラメータチューニングを必要とする。
そこで本研究では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
典型的な層割り刈り技術とは対照的に、besaには2つの特徴がある。
一 個々の変圧器ブロックに関する全体的な刈り誤差を目標とし、
二 層特異的スパルシリティを鑑別可能な方法で割り当てることにより、刈り取り後の性能劣化の低減を図ること。
LLaMA1 や LLaMA2 のような LLM を 1 つの A100 GPU 上で 7B から 70B のパラメータでわずか 5 時間で効率よく刈り取ることができる。
コードは \href{https://github.com/OpenGVLab/LLMPrune-BESA}{here} で公開されている。
関連論文リスト
- SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。
Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。
SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models [7.496469228171892]
大規模言語モデル(LLM)は大規模に大きく成長しており、効率的なモデルプルーニング技術を必要としている。
LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot) は, プレナードモデルのスポーシティマスクをリトレーニングや重量再構成なしに再構築する, ワンショットプルーニングフレームワークである。
実験の結果,LLM-Barber は 1 つの A100 GPU 上で 7B から 13B のパラメータを持つモデルを 30 分で効率的にプルークできることがわかった。
論文 参考訳(メタデータ) (2024-08-20T08:13:52Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks [9.958467179573237]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。
既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。
SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-14T09:01:13Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。