論文の概要: BlockPruner: Fine-grained Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10594v1
- Date: Sat, 15 Jun 2024 11:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 23:43:29.532293
- Title: BlockPruner: Fine-grained Pruning for Large Language Models
- Title(参考訳): BlockPruner: 大規模言語モデルのためのきめ細かいプルーニング
- Authors: Longguang Zhong, Fanqi Wan, Ruijun Chen, Xiaojun Quan, Liangzhi Li,
- Abstract要約: 研究によると、大きな言語モデル(LLM)の特定のレイヤは、かなりの冗長性を持ち、これらのレイヤを刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。
そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。
我々は,BlockPrunerが最先端のベースラインよりも粒度が高く,効率的なプルーニングを実現していることを示す。
- 参考スコア(独自算出の注目度): 23.523314522663455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth in the size and complexity of large language models (LLMs), the costs associated with their training and inference have escalated significantly. Research indicates that certain layers in LLMs harbor substantial redundancy, and pruning these layers has minimal impact on the overall performance. While various layer pruning methods have been developed based on this insight, they generally overlook the finer-grained redundancies within the layers themselves. In this paper, we delve deeper into the architecture of LLMs and demonstrate that finer-grained pruning can be achieved by targeting redundancies in multi-head attention (MHA) and multi-layer perceptron (MLP) blocks. We propose a novel, training-free structured pruning approach called BlockPruner. Unlike existing layer pruning methods, BlockPruner segments each Transformer layer into MHA and MLP blocks. It then assesses the importance of these blocks using perplexity measures and applies a heuristic search for iterative pruning. We applied BlockPruner to LLMs of various sizes and architectures and validated its performance across a wide range of downstream tasks. Experimental results show that BlockPruner achieves more granular and effective pruning compared to state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)のサイズと複雑さの急速な増加に伴い、トレーニングや推論に伴うコストは大幅に増大した。
LLMの特定の層は、かなりの冗長性を持ち、これらの層を刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。
この知見に基づいて様々な層刈り法が開発されているが、一般的には層自体の微細な冗長性を見落としている。
本稿では,LLMのアーキテクチャを深く掘り下げ,マルチヘッドアテンション(MHA)およびマルチ層パーセプトロン(MLP)ブロックにおける冗長性を目標にすることで,よりきめ細かなプルーニングを実現することを実証する。
そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。
既存の層プルーニング法とは異なり、BlockPrunerは各トランスフォーマー層をMHAとMLPブロックに分割する。
次に、これらのブロックの重要性をパープレキシティ尺度を用いて評価し、反復的なプルーニングにヒューリスティックな探索を適用した。
我々はBlockPrunerを様々なサイズとアーキテクチャのLLMに適用し、その性能を幅広い下流タスクで検証した。
実験結果から,BlockPrunerは最先端のベースラインに比べて粒度と有効プルーニングを実現していることがわかった。
関連論文リスト
- DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models [62.98273649512654]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T18:51:18Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - A Generic Layer Pruning Method for Signal Modulation Recognition Deep Learning Models [17.996775444294276]
ディープニューラルネットワークは信号分類の方法として好まれている。
それらはしばしば高い計算複雑性と大きなモデルサイズを持つ。
本稿では,この課題に対処する新しいレイヤ・プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T06:46:37Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
LLM-Streamlineは2つの部分から構成される: 層プルーニング(Layer pruning)は、ターゲットの間隔に基づいて最も重要でない連続的な層を除去する。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Efficient Reinforcement Learning in Block MDPs: A Model-free
Representation Learning Approach [73.62265030773652]
ブロック構造力学を用いたマルコフ決定過程における効率的な強化学習アルゴリズムであるBRIEEを提案する。
BRIEEは、潜伏状態の発見、探索、搾取を相互にインターリーブし、ほぼ最適な政策を確実に学べる。
我々は、BRIEEが最先端のBlock MDPアルゴリズムであるHOMER RLや、リッチ・オブザーブレーションの組み合わせロック問題に挑戦する経験的ベースラインよりも、より標本効率が高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T19:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。