論文の概要: ADMM Based Semi-Structured Pattern Pruning Framework For Transformer
- arxiv url: http://arxiv.org/abs/2407.08334v4
- Date: Fri, 23 Aug 2024 08:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:45:57.835157
- Title: ADMM Based Semi-Structured Pattern Pruning Framework For Transformer
- Title(参考訳): ADMMを用いた変圧器用半構造化パターン解析フレームワーク
- Authors: TianChen Wang,
- Abstract要約: 本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークを提案する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
- 参考スコア(独自算出の注目度): 4.02487511510606
- License:
- Abstract: NLP(natural language processsing) has achieved great success through the transformer model.However, the model has hundreds of millions or billions parameters,which is huge burden for its deployment on personal computer or small scale of server.To deal with it, we either make the model's weight matrix relatively sparser, or compress attention layer. Pattern pruning ,one of the most important pruning methods, permits selecting fixed number of parameters in each divided pattern block and prunes it. However, the effect of pattern pruning is strictly limited by the sparsity within a region of weights in each layer. In this paper,we first introduced Alternating Direction Method of Multipliers(ADMM) based pattern pruning framework to reshape the distribution of activation map. Specifically, we propose to formulate the pattern pruning on transformer as a constrained optimization and use ADMM to optimize the problem. In this way, the initial dense feature maps is transformed to rather regionally sparsified ones.Therefore, we can then achieve higher compression ratio with better performance based on pattern pruning method. Additionally, this paper provides a theoretical derivations of the ADMM with local sparsity. Finally, we also extend the proposed ADMM based framework with SR-STE to demonstrate its generalization and to avoid gradient vanishing problem. We conduct extensive experiments on classification tasks over GLUE datasets. Significantly, we achieve 50% percent compression ratio while maintaining overall score 80.1 on GLUE dataset.
- Abstract(参考訳): NLP(自然言語処理)はトランスフォーマーモデルを通じて大きな成功を収めてきたが、そのモデルには数億ないし数十億のパラメータがあり、パーソナルコンピュータや小規模なサーバに展開する際の負担が大きい。
パターンプルーニング(Pattern pruning)は、最も重要なプルーニング手法の一つで、分割された各パターンブロックに固定された数のパラメータを選択できる。
しかし, パターンプレーニングの効果は, 各層内の重み領域内の空間によって厳密に制限される。
本稿では,アクティベーションマップの分布を再構成する,ADMM(Alternating Direction Method of Multipliers)に基づくパターン解析フレームワークについて紹介する。
具体的には,変換器上でのパターンプルーニングを制約付き最適化として定式化し,ADMMを用いて問題を最適化する。
このようにして、初期高密度特徴写像は比較的局所的にスペーサー化されたものに変換されるが、それ以前はパターンプルーニング法に基づく高い圧縮比を達成できた。
さらに,本論文では,ADMMと局所空間の理論的導出について述べる。
最後に,提案したADMMベースのフレームワークをSR-STEで拡張し,その一般化を実証し,勾配解消の問題を回避する。
GLUEデータセット上の分類タスクについて広範な実験を行った。
また,GLUEデータセットの総合スコア80.1を維持しながら圧縮率50%を達成した。
関連論文リスト
- Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
我々は、高密度事前学習モデルの関数情報を利用して、アクティベーションのアライメントw.r.tを最大化するスパースモデルを得る。
我々は,アクティベーション間のニューロンアライメントを最大化するために,ブロックワイドと行ワイドの間隔比を変更するエンフェップアップアルゴリズムであるtextscNeuroAlを提案する。
提案手法は,4つの異なるLLMファミリーと3つの異なる空間比で検証し,最新の最先端技術よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Improving the Accuracy-Memory Trade-Off of Random Forests Via
Leaf-Refinement [6.967385165474138]
ランダムフォレスト(RF)は多くの機械学習応用において最先端の分野である。
本研究では,大きな木々のアンサンブルに対して,刈り込みによる改良効果は低下するが,刈り込みはRFよりも全体的な精度とメモリのトレードオフが優れていることを示す。
我々は,森林の葉ノードの勾配降下による予測を改良する,単純だが驚くほど効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T16:06:43Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。