論文の概要: An Efficient Sparse Inference Software Accelerator for Transformer-based
Language Models on CPUs
- arxiv url: http://arxiv.org/abs/2306.16601v1
- Date: Wed, 28 Jun 2023 23:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 15:16:11.599246
- Title: An Efficient Sparse Inference Software Accelerator for Transformer-based
Language Models on CPUs
- Title(参考訳): cpu上のトランスフォーマー言語モデルのための効率的なスパース推論ソフトウェアアクセラレータ
- Authors: Haihao Shen, Hengyu Meng, Bo Dong, Zhe Wang, Ofir Zafrir, Yi Ding, Yu
Luo, Hanwen Chang, Qun Gao, Ziheng Wang, Guy Boudoukh, and Moshe Wasserblat
- Abstract要約: トランスフォーマーベースの言語モデルは、自然言語処理タスクの標準的なアプローチとなっている。
既存のほとんどのニューラルネットワーク推論ランタイムは、構造化されたスパーシリティを適切にサポートしていない。
本稿では,トランスフォーマーに基づく言語モデルのための効率的なスパース深層学習ソフトウェアスタックを提案する。
- 参考スコア(独自算出の注目度): 12.883586189626431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Transformer-based language models have become the standard
approach for natural language processing tasks. However, stringent throughput
and latency requirements in industrial applications are limiting their
adoption. To mitigate the gap, model compression techniques such as structured
pruning are being used to improve inference efficiency. However, most existing
neural network inference runtimes lack adequate support for structured
sparsity. In this paper, we propose an efficient sparse deep learning inference
software stack for Transformer-based language models where the weights are
pruned with constant block size. Our sparse software accelerator leverages
Intel Deep Learning Boost to maximize the performance of sparse matrix - dense
matrix multiplication (commonly abbreviated as SpMM) on CPUs. Our SpMM kernel
outperforms the existing sparse libraries (oneMKL, TVM, and LIBXSMM) by an
order of magnitude on a wide range of GEMM shapes under 5 representative
sparsity ratios (70%, 75%, 80%, 85%, 90%). Moreover, our SpMM kernel shows up
to 5x speedup over dense GEMM kernel of oneDNN, a well-optimized dense library
widely used in industry. We apply our sparse accelerator on widely-used
Transformer-based language models including Bert-Mini, DistilBERT, Bert-Base,
and BERT-Large. Our sparse inference software shows up to 1.5x speedup over
Neural Magic's Deepsparse under same configurations on Xeon on Amazon Web
Services under proxy production latency constraints. We also compare our
solution with two framework-based inference solutions, ONNX Runtime and
PyTorch, and demonstrate up to 37x speedup over ONNX Runtime and 345x over
PyTorch on Xeon under the latency constraints. All the source code is publicly
available on Github: https://github.com/intel/intel-extension-for-transformers.
- Abstract(参考訳): 近年,トランスフォーマーに基づく言語モデルが自然言語処理タスクの標準的アプローチとなっている。
しかし、産業アプリケーションにおける厳格なスループットとレイテンシ要件は採用を制限している。
このギャップを軽減するために、構造化プルーニングのようなモデル圧縮技術が推論効率を改善するために使用されている。
しかし、既存のほとんどのニューラルネットワーク推論ランタイムは、構造化されたスパーシリティを適切にサポートしていない。
本稿では,トランスフォーマーに基づく言語モデルに対して,重みを一定のブロックサイズで刈り取る,効率的なスパース深層学習ソフトウェアスタックを提案する。
我々のスパースソフトウェアアクセラレータは、Intel Deep Learning Boostを活用してスパースマトリックス(一般にSpMMと略される)の性能を最大化する。
我々のSpMMカーネルは,既存のスパースライブラリ (oneMKL, TVM, LIBXSMM) を5つの代表空間比 (70%, 75%, 80%, 85%, 90%) 以下のGEMM形状で桁違いに処理する。
さらに、当社のSpMMカーネルは、業界で広く使われている高度ライブラリであるOneDNNの高密度GEMMカーネルよりも最大5倍高速化されている。
スパースアクセラレータを,Bert-Mini, DistilBERT, Bert-Base, BERT-Largeなど,広く使われているTransformerベースの言語モデルに適用する。
当社のスパース推論ソフトウェアは,Amazon Web Services上のXeonと同じ構成で,Neural MagicのDeepsparseよりも1.5倍のスピードアップを実現しています。
我々はまた、私たちのソリューションを、ONNX RuntimeとPyTorchという2つのフレームワークベースの推論ソリューションと比較し、レイテンシ制約の下で、ONNX Runtimeの最大37倍のスピードアップとXeonのPyTorchの最大345倍のスピードアップを示します。
ソースコードはすべてgithubで公開されている。 https://github.com/intel/intel-extension-for-transformers。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - SparseByteNN: A Novel Mobile Inference Acceleration Framework Based on
Fine-Grained Group Sparsity [10.89385369643021]
本稿では,モバイル推論アクセラレーションフレームワークであるSparseByteNNを提案する。
30%のスパースMobileNet-v1に対して,SparseByteNNは高密度バージョンで1.27倍,最先端のスパース推論エンジンMNNで1.29倍の高速化を実現し,精度は0.224%低下した。
論文 参考訳(メタデータ) (2023-10-30T13:08:48Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Fast DistilBERT on CPUs [13.29188219884869]
トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。
業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。
我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
論文 参考訳(メタデータ) (2022-10-27T07:22:50Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - SparseDNN: Fast Sparse Deep Learning Inference on CPUs [1.6244541005112747]
CPUをターゲットとしたスパースディープラーニング推論エンジンであるSparseDNNを紹介します。
我々のスパースコードジェネレータは,最先端のスパースライブラリや高密度ライブラリよりも大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2021-01-20T03:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。