論文の概要: Hardware Acceleration of Fully Quantized BERT for Efficient Natural
Language Processing
- arxiv url: http://arxiv.org/abs/2103.02800v1
- Date: Thu, 4 Mar 2021 02:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 14:51:56.218474
- Title: Hardware Acceleration of Fully Quantized BERT for Efficient Natural
Language Processing
- Title(参考訳): 自然言語処理のための完全量子化BERTのハードウェア高速化
- Authors: Zejian Liu, Gang Li and Jian Cheng
- Abstract要約: BERTは、さまざまなNLPタスクで最先端のパフォーマンスを実現する最新のトランスフォーマーベースのモデルです。
ウェイト、アクティベーション、ソフトマックス、レイヤー正規化、およびすべての中間結果を含むBERT(FQ-BERT)を定量化します。
実験の結果、FQ-BERTは7.94倍の圧縮を達成でき、性能損失は無視できることがわかった。
- 参考スコア(独自算出の注目度): 15.103451872671439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BERT is the most recent Transformer-based model that achieves
state-of-the-art performance in various NLP tasks. In this paper, we
investigate the hardware acceleration of BERT on FPGA for edge computing. To
tackle the issue of huge computational complexity and memory footprint, we
propose to fully quantize the BERT (FQ-BERT), including weights, activations,
softmax, layer normalization, and all the intermediate results. Experiments
demonstrate that the FQ-BERT can achieve 7.94x compression for weights with
negligible performance loss. We then propose an accelerator tailored for the
FQ-BERT and evaluate on Xilinx ZCU102 and ZCU111 FPGA. It can achieve a
performance-per-watt of 3.18 fps/W, which is 28.91x and 12.72x over Intel(R)
Core(TM) i7-8700 CPU and NVIDIA K80 GPU, respectively.
- Abstract(参考訳): BERTは、さまざまなNLPタスクで最先端のパフォーマンスを実現する最新のトランスフォーマーベースのモデルです。
本稿では,エッジコンピューティングのためのFPGA上でのBERTのハードウェアアクセラレーションについて検討する。
計算量とメモリフットプリントの問題に対処するために、重み、アクティベーション、ソフトマックス、層正規化、および全ての中間結果を含むBERT(FQ-BERT)の完全定量化を提案する。
実験の結果、FQ-BERTは7.94倍の圧縮を達成でき、性能損失は無視できることがわかった。
次に、FQ-BERTに適したアクセラレータを提案し、Xilinx ZCU102 と ZCU111 FPGA上で評価する。
それぞれIntel(R) Core(TM) i7-8700 CPUとNVIDIA K80 GPUより28.91xと12.72xの3.18fps/Wの性能を実現することができる。
関連論文リスト
- FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - ProTEA: Programmable Transformer Encoder Acceleration on FPGA [0.0]
トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
本稿では,最先端の変圧器エンコーダの高密度計算に適したプログラム実行アクセラレータである textitProTEA を紹介する。
論文 参考訳(メタデータ) (2024-09-21T01:44:13Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - DFX: A Low-latency Multi-FPGA Appliance for Accelerating
Transformer-based Text Generation [7.3619135783046]
我々は,低レイテンシかつ高スループットでGPT-2モデルエンドツーエンドを実行するマルチFPGA加速度アプライアンスであるDFXを提案する。
提案するハードウェアアーキテクチャを,Xilinx Alveo U280 FPGA上で実装し,高帯域メモリ(HBM)の全チャネルと計算資源の最大数を利用する。
論文 参考訳(メタデータ) (2022-09-22T05:59:59Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - EfficientBERT: Progressively Searching Multilayer Perceptron via Warm-up
Knowledge Distillation [82.3956677850676]
事前学習された言語モデルは、様々なNLPタスクにおいて顕著な結果を示した。
サイズが大きく、推論速度が遅いため、エッジデバイスにデプロイするのは困難である。
本稿では、BERTにおけるフィードフォワードネットワーク(FFN)の改善が、マルチヘッドアテンション(MHA)の改善よりも高い利益をもたらすという批判的な洞察を得る。
論文 参考訳(メタデータ) (2021-09-15T11:25:39Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - A fully pipelined FPGA accelerator for scale invariant feature transform
keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。
提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。
私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文 参考訳(メタデータ) (2020-12-17T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。