論文の概要: MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models
- arxiv url: http://arxiv.org/abs/2105.14636v1
- Date: Sun, 30 May 2021 22:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:44:48.536331
- Title: MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models
- Title(参考訳): MLPruning: トランスフォーマーモデルのためのマルチレベル構造化プルーニングフレームワーク
- Authors: Zhewei Yao, Linjian Ma, Sheng Shen, Kurt Keutzer, Michael W. Mahoney
- Abstract要約: プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
- 参考スコア(独自算出の注目度): 78.45898846056303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning is an effective method to reduce the memory footprint and
computational cost associated with large natural language processing models.
However, current approaches either only explore head pruning, which has a
limited pruning ratio, or only focus on unstructured pruning, which has
negligible effects on the real inference time and/or power consumption. To
address these challenges, we develop a novel MultiLevel structured Pruning
(MLPruning) framework, which uses three different levels of structured pruning:
head pruning, row pruning, and block-wise sparse pruning. We propose using a
learnable Top-k threshold, which employs an adaptive regularization to adjust
the regularization magnitude adaptively, to select appropriate pruning ratios
for different weight matrices. We also propose a two-step pipeline to combine
block-wise pruning with head/row pruning to achieve high structured pruning
ratios with minimum accuracy degradation. Our empirical results show that for
\bertbase, with \textapprox20\% of remaining weights, \OURS can achieve an
accuracy that is comparable to the full model on QQP/MNLI/\squad, with up to
\textapprox3.69x speedup. Our framework has been open sourced~\cite{codebase}.
- Abstract(参考訳): プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
しかし、現在のアプローチでは、プルーニング比が限られているヘッドプルーニングのみを探索するか、非構造化プルーニングのみに焦点を当て、実際の推論時間や電力消費に無視できる効果を持つ。
これらの課題に対処するために,頭部刈り,行刈り,ブロックワイドスパース刈りという3つの異なるレベルの構造化刈りのレベルを利用する,新しいMultiLevel Structured Pruning (MLPruning) フレームワークを開発した。
適応正則化を用いて正規化度を適応的に調整する学習可能なTop-kしきい値を用いて、異なる重み行列に対して適切なプルーニング比を選択する。
また,ブロックワイドプルーニングとヘッド/ロープルーニングを併用して,最小精度で高構造プルーニング比を実現するための2ステップパイプラインを提案する。
実験の結果, 残り重量の \textapprox20\% である \bertbase では, QQP/MNLI/\squad の完全モデルに匹敵する精度を最大で \textapprox3.69x のスピードアップで達成できることがわかった。
私たちのフレームワークはオープンソースになりました。
関連論文リスト
- ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文 参考訳(メタデータ) (2024-07-11T09:35:08Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Data-Efficient Structured Pruning via Submodular Optimization [32.574190896543705]
部分モジュラ最適化に基づくデータ効率の高い構造化プルーニング手法を提案する。
この選択問題は弱い部分モジュラー問題であり、効率的なグリードアルゴリズムを用いて証明可能な近似が可能であることを示す。
本手法は,限られた数のトレーニングデータのみを使用し,ラベルを含まない文献の中では数少ない手法の一つである。
論文 参考訳(メタデータ) (2022-03-09T18:40:29Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning [83.99191569112682]
マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。
我々は,単一層最適化を多層最適化に拡張することにより,単純なプルーニング法であるルックアヘッドプルーニングを開発した。
実験の結果,提案手法は様々なネットワーク上での大規模プルーニングよりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-02-12T05:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。