論文の概要: Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for
Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2206.15014v1
- Date: Thu, 30 Jun 2022 04:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 04:50:48.740968
- Title: Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for
Natural Language Understanding
- Title(参考訳): 自然言語理解のための低ビットnxmスパルシティによるプリトレーニングトランスの圧縮
- Authors: Connor Holmes, Minjia Zhang, Yuxiong He, Bo Wu
- Abstract要約: 大規模な事前学習型トランスフォーマーネットワークは、多くの自然言語理解タスクにおいて劇的に改善されている。
NM半構造スパーシリティと低精度整数計算の両方をサポートする新しいハードウェアは、モデル提供効率を高めるための有望な解決策である。
本研究では,同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
- 参考スコア(独自算出の注目度): 20.75335227098455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large pre-trained Transformer networks have demonstrated
dramatic improvements in many natural language understanding tasks. However,
the huge size of these models brings significant challenges to their
fine-tuning and online deployment due to latency and cost constraints. New
hardware supporting both N:M semi-structured sparsity and low-precision integer
computation is a promising solution to boost DNN model serving efficiency.
However, there have been very few studies that systematically investigate to
what extent pre-trained Transformer networks benefit from the combination of
these techniques, as well as how to best compress each component of the
Transformer. We propose a flexible compression framework NxMiFormer that
performs simultaneous sparsification and quantization using ADMM and STE-based
QAT. Furthermore, we present and inexpensive, heuristic-driven search algorithm
that identifies promising heterogeneous compression configurations that meet a
compression ratio constraint. When evaluated across the GLUE suite of NLU
benchmarks, our approach can achieve up to 93% compression of the encoders of a
BERT model while retaining 98.2% of the original model accuracy and taking full
advantage of the hardware's capabilities. Heterogeneous configurations found
the by the search heuristic maintain 99.5% of the baseline accuracy while still
compressing the model by 87.5%.
- Abstract(参考訳): 近年、多くの自然言語理解タスクにおいて、大規模な事前学習型トランスフォーマーネットワークが劇的に改善されている。
しかし、これらのモデルの巨大なサイズは、レイテンシとコストの制約により、微調整とオンラインデプロイメントに大きな課題をもたらします。
N:M半構造化空間と低精度整数計算の両方をサポートする新しいハードウェアは、DNNモデルの効率向上に有望なソリューションである。
しかしながら、これらの技術の組み合わせによって、事前訓練されたトランスフォーマーネットワークがどの程度の恩恵を受けるか、またトランスフォーマーの各コンポーネントをいかにベストに圧縮するかを体系的に研究する研究はほとんどない。
本稿では,ADMMとSTEベースのQATを用いて同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
さらに,圧縮比制約を満たす不均質な圧縮構成を識別する,安価でヒューリスティックな検索アルゴリズムを提案する。
NLUベンチマークのGLUEスイートで評価すると、BERTモデルのエンコーダを最大93%圧縮でき、元のモデルの精度の98.2%を維持し、ハードウェアの機能を完全に活用できる。
探索ヒューリスティックによる不均一な構成では、ベースライン精度の99.5%を維持しながら、モデルを87.5%圧縮している。
関連論文リスト
- MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - DSFormer: Effective Compression of Text-Transformers by Dense-Sparse
Weight Factorization [12.277820111814691]
DSFormerは、ターゲットの重み行列を小さな密度と半構造化されたスパース行列の積として表現する単純な代替因数分解スキームである。
我々のアプローチは、主流圧縮機にも当てはまり、一般的な蒸留、層共有および量子化変換器に追加される場合、最大50%の圧縮を提供する。
論文 参考訳(メタデータ) (2023-12-20T17:27:25Z) - SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions [20.241671088121144]
最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。