Fugu-MT 論文翻訳(概要): MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models

論文の概要: MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models

arxiv url: http://arxiv.org/abs/2105.14636v1
Date: Sun, 30 May 2021 22:00:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-01 17:44:48.536331
Title: MLPruning: A Multilevel Structured Pruning Framework for Transformer-based Models
Title（参考訳）: MLPruning: トランスフォーマーモデルのためのマルチレベル構造化プルーニングフレームワーク
Authors: Zhewei Yao, Linjian Ma, Sheng Shen, Kurt Keutzer, Michael W. Mahoney
Abstract要約: プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
参考スコア（独自算出の注目度）: 78.45898846056303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pruning is an effective method to reduce the memory footprint and computational cost associated with large natural language processing models. However, current approaches either only explore head pruning, which has a limited pruning ratio, or only focus on unstructured pruning, which has negligible effects on the real inference time and/or power consumption. To address these challenges, we develop a novel MultiLevel structured Pruning (MLPruning) framework, which uses three different levels of structured pruning: head pruning, row pruning, and block-wise sparse pruning. We propose using a learnable Top-k threshold, which employs an adaptive regularization to adjust the regularization magnitude adaptively, to select appropriate pruning ratios for different weight matrices. We also propose a two-step pipeline to combine block-wise pruning with head/row pruning to achieve high structured pruning ratios with minimum accuracy degradation. Our empirical results show that for \bertbase, with \textapprox20\% of remaining weights, \OURS can achieve an accuracy that is comparable to the full model on QQP/MNLI/\squad, with up to \textapprox3.69x speedup. Our framework has been open sourced~\cite{codebase}.
Abstract（参考訳）: プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。しかし、現在のアプローチでは、プルーニング比が限られているヘッドプルーニングのみを探索するか、非構造化プルーニングのみに焦点を当て、実際の推論時間や電力消費に無視できる効果を持つ。これらの課題に対処するために,頭部刈り,行刈り,ブロックワイドスパース刈りという3つの異なるレベルの構造化刈りのレベルを利用する,新しいMultiLevel Structured Pruning (MLPruning) フレームワークを開発した。適応正則化を用いて正規化度を適応的に調整する学習可能なTop-kしきい値を用いて、異なる重み行列に対して適切なプルーニング比を選択する。また,ブロックワイドプルーニングとヘッド/ロープルーニングを併用して,最小精度で高構造プルーニング比を実現するための2ステップパイプラインを提案する。実験の結果, 残り重量の \textapprox20\% である \bertbase では, QQP/MNLI/\squad の完全モデルに匹敵する精度を最大で \textapprox3.69x のスピードアップで達成できることがわかった。私たちのフレームワークはオープンソースになりました。

関連論文リスト

MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。 MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文参考訳（メタデータ） (2025-07-01T03:02:59Z)
PIP: Perturbation-based Iterative Pruning for Large Language Models [5.511065308044068]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文参考訳（メタデータ） (2025-01-25T17:10:50Z)
ADMM Based Semi-Structured Pattern Pruning Framework For Transformer [4.02487511510606]
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。 GLUEデータセット上の分類タスクについて広範な実験を行った。 GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
論文参考訳（メタデータ） (2024-07-11T09:35:08Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Structurally Prune Anything: Any Architecture, Any Framework, Any Time [84.6210631783801]
ニューラルネットワークのための汎用的な構造化プルーニングフレームワークであるStructurely Prune Anything (SPA)を紹介した。 SPAは、トレーニング前、微調整後のトレーニング後、または微調整なしでのトレーニング後、いつでもプランニングをサポートする。大規模な実験では、SPAは様々なアーキテクチャで最先端のプルーニング性能と競合することを示した。
論文参考訳（メタデータ） (2024-03-03T13:49:49Z)
Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法であるワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文参考訳（メタデータ） (2022-10-08T19:19:29Z)
A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T07:41:11Z)
Data-Efficient Structured Pruning via Submodular Optimization [32.574190896543705]
部分モジュラ最適化に基づくデータ効率の高い構造化プルーニング手法を提案する。この選択問題は弱い部分モジュラー問題であり、効率的なグリードアルゴリズムを用いて証明可能な近似が可能であることを示す。本手法は,限られた数のトレーニングデータのみを使用し,ラベルを含まない文献の中では数少ない手法の一つである。
論文参考訳（メタデータ） (2022-03-09T18:40:29Z)
Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文参考訳（メタデータ） (2021-05-26T17:01:52Z)
Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning [83.99191569112682]
マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。我々は,単一層最適化を多層最適化に拡張することにより,単純なプルーニング法であるルックアヘッドプルーニングを開発した。実験の結果,提案手法は様々なネットワーク上での大規模プルーニングよりも一貫して優れていた。
論文参考訳（メタデータ） (2020-02-12T05:38:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。