論文の概要: 2SSP: A Two-Stage Framework for Structured Pruning of LLMs
- arxiv url: http://arxiv.org/abs/2501.17771v1
- Date: Wed, 29 Jan 2025 17:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:55:01.097243
- Title: 2SSP: A Two-Stage Framework for Structured Pruning of LLMs
- Title(参考訳): 2SSP: LLMの構造解析のための2段階フレームワーク
- Authors: Fabrizio Sandri, Elia Cunegatti, Giovanni Iacca,
- Abstract要約: 大規模言語モデル(LLM)の2段階構造解析(2SSP)フレームワーク
We propose two different strategy of pruning、すなわち Width and Depth Pruning。
提案手法は,3つの言語モデルと6つの下流タスクに対して,最先端の5つの競争相手を一貫して上回ります。
- 参考スコア(独自算出の注目度): 2.9248916859490173
- License:
- Abstract: We propose a novel Two-Stage framework for Structured Pruning (2SSP) for pruning Large Language Models (LLMs), which combines two different strategies of pruning, namely Width and Depth Pruning. The first stage (Width Pruning) removes entire neurons, hence their corresponding rows and columns, aiming to preserve the connectivity among the pruned structures in the intermediate state of the Feed-Forward Networks in each Transformer block. This is done based on an importance score measuring the impact of each neuron over the output magnitude. The second stage (Depth Pruning), instead, removes entire Attention submodules. This is done by applying an iterative process that removes the Attention submodules with the minimum impact on a given metric of interest (in our case, perplexity). We also propose a novel mechanism to balance the sparsity rate of the two stages w.r.t. to the desired global sparsity. We test 2SSP on four LLM families and three sparsity rates (25\%, 37.5\%, and 50\%), measuring the resulting perplexity over three language modeling datasets as well as the performance over six downstream tasks. Our method consistently outperforms five state-of-the-art competitors over three language modeling and six downstream tasks, with an up to two-order-of-magnitude gain in terms of pruning time. The code is available at available at \url{https://github.com/FabrizioSandri/2SSP}.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の2つの異なるプルーニング戦略,すなわち Width と Depth Pruning を組み合わせた,構造化プルーニングのための2段階フレームワークを提案する。
第1段階(Width Pruning)は、ニューロン全体を取り除き、それに対応する行と列を取り除き、各トランスフォーマーブロック内のフィードフォワードネットワークの中間状態において、切断された構造間の接続を維持することを目的としている。
これは、各ニューロンの出力大に対する影響を測定する重要なスコアに基づいて行われる。
2番目のステージ(Depth Pruning)は、アテンションサブモジュール全体を削除します。
これは、ある興味の計量(この場合、パープレキシティ)に最小限の影響で注意部分加群を除去する反復的プロセスを適用することによって行われる。
また、所望のグローバルな空間に2段階w.r.t.の空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的
2SSPを4つのLLMファミリーと3つのスパシティレート (25\%, 37.5\%, 50\%) でテストし、3つの言語モデリングデータセットの難易度と6つの下流タスクのパフォーマンスを測定した。
提案手法は,3つの言語モデルと6つの下流タスクに対して,最先端の5つの競争相手を一貫して上回り,プルーニング時間で最大2桁のゲインを達成している。
コードは \url{https://github.com/FabrizioSandri/2SSP} で入手できる。
関連論文リスト
- Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - MALUNet: A Multi-Attention and Light-weight UNet for Skin Lesion
Segmentation [13.456935850832565]
そこで本研究では,皮膚病変のセグメンテーションにおいて,パラメータと計算複雑性の最小コストで競合性能を実現する軽量モデルを提案する。
我々は、4つのモジュールをU字型アーキテクチャと組み合わせ、MALUNetと呼ばれる軽量な医用画像分割モデルを得る。
UNetと比較して、我々のモデルはmIoUとDSCのメトリクスをそれぞれ2.39%、1.49%改善し、パラメータ数と計算複雑性の44倍と166倍削減した。
論文 参考訳(メタデータ) (2022-11-03T13:19:22Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Sandglasset: A Light Multi-Granularity Self-attentive Network For
Time-Domain Speech Separation [37.697375719184926]
モデルサイズと計算コストを大幅に小さくして, 最先端(SOTA) SS性能を向上する, サンドグラス形状の新規なセルフアテンテートネットワークを提案する。
実験では、2つのベンチマークSSデータセットで最高の結果を得たのは、わずか2.3MパラメータのSandglassetです。
論文 参考訳(メタデータ) (2021-03-01T07:36:09Z) - PlueckerNet: Learn to Register 3D Line Reconstructions [57.20244406275875]
本稿では,ユークリッド空間における2つの部分重畳された3次元線再構成の問題をニューラルネットワークで解く手法を提案する。
室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)は,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-02T11:31:56Z) - Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。
本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文 参考訳(メタデータ) (2020-05-18T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。