論文の概要: Fast DistilBERT on CPUs
- arxiv url: http://arxiv.org/abs/2211.07715v1
- Date: Thu, 27 Oct 2022 07:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 14:08:15.495750
- Title: Fast DistilBERT on CPUs
- Title(参考訳): CPU上の高速DistilBERT
- Authors: Haihao Shen, Ofir Zafrir, Bo Dong, Hengyu Meng, Xinyu Ye, Zhe Wang, Yi
Ding, Hanwen Chang, Guy Boudoukh, and Moshe Wasserblat
- Abstract要約: トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決するための標準的なアプローチとなっている。
業界の採用は通常、特定のレイテンシ制約を満たすために最大スループットを必要とします。
我々は,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子に最適化されたカーネルを備えた独自のTransformer推論ランタイムエンジンを利用して,CPU上で高速トランスフォーマーモデルを作成し,実行するためのパイプラインを提案する。
- 参考スコア(独自算出の注目度): 13.29188219884869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models have become the standard approach to
solving natural language processing tasks. However, industry adoption usually
requires the maximum throughput to comply with certain latency constraints that
prevents Transformer models from being used in production. To address this gap,
model compression techniques such as quantization and pruning may be used to
improve inference efficiency. However, these compression techniques require
specialized software to apply and deploy at scale. In this work, we propose a
new pipeline for creating and running Fast Transformer models on CPUs,
utilizing hardware-aware pruning, knowledge distillation, quantization, and our
own Transformer inference runtime engine with optimized kernels for sparse and
quantized operators. We demonstrate the efficiency of our pipeline by creating
a Fast DistilBERT model showing minimal accuracy loss on the question-answering
SQuADv1.1 benchmark, and throughput results under typical production
constraints and environments. Our results outperform existing state-of-the-art
Neural Magic's DeepSparse runtime performance by up to 50% and up to 4.1x
performance speedup over ONNX Runtime.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、自然言語処理タスクを解決する標準的なアプローチとなっている。
しかし、業界の採用は通常、Transformerモデルが本番環境で使用されるのを防ぐために、一定のレイテンシ制約を満たすために最大スループットを必要とする。
このギャップに対処するために、量子化やプルーニングのようなモデル圧縮技術を用いて推論効率を向上させることができる。
しかし、これらの圧縮技術は、大規模に適用および展開するために特別なソフトウェアを必要とする。
本研究では,ハードウェア対応プルーニング,知識蒸留,量子化,およびスパース演算子と量子化演算子を最適化したTransformer推論ランタイムエンジンを用いた,CPU上での高速トランスフォーマーモデルの生成と実行のためのパイプラインを提案する。
我々は,質問応答SQuADv1.1ベンチマークの精度を最小限に抑えたFast DistilBERTモデルを作成し,典型的な生産制約と環境下でのスループット結果を示す。
我々の結果は、既存の最先端のNeural MagicのDeepSparseランタイムのパフォーマンスを最大50%、ONNX Runtimeよりも最大4.1倍のパフォーマンスで上回っています。
関連論文リスト
- An Efficient Sparse Inference Software Accelerator for Transformer-based
Language Models on CPUs [12.883586189626431]
トランスフォーマーベースの言語モデルは、自然言語処理タスクの標準的なアプローチとなっている。
既存のほとんどのニューラルネットワーク推論ランタイムは、構造化されたスパーシリティを適切にサポートしていない。
本稿では,トランスフォーマーに基づく言語モデルのための効率的なスパース深層学習ソフトウェアスタックを提案する。
論文 参考訳(メタデータ) (2023-06-28T23:55:51Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Efficient Transformer-based Large Scale Language Representations using
Hardware-friendly Block Structured Pruning [12.761055946548437]
ハードウェアフレンドリーなブロック構造プルーニングを用いた,効率的なトランスフォーマーに基づく大規模言語表現を提案する。
重み付けと計算の大幅な削減に加えて,提案手法は高い圧縮率を達成する。
リソース制約のあるエッジデバイスに最終的な圧縮モデルを展開するのに適している。
論文 参考訳(メタデータ) (2020-09-17T04:45:47Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Accelerating Natural Language Understanding in Task-Oriented Dialog [6.757982879080109]
構造化プルーニングにより圧縮された単純な畳み込みモデルは,ATIS や Snips のBERT にほぼ匹敵する結果となり,100K 以下のパラメータが得られた。
また、CPU上でのアクセラレーション実験を行い、マルチタスクモデルでDistilBERTの約63倍の速度でインテントやスロットを予測する。
論文 参考訳(メタデータ) (2020-06-05T21:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。