論文の概要: Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode
- arxiv url: http://arxiv.org/abs/2104.12470v1
- Date: Mon, 26 Apr 2021 11:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 22:31:27.733785
- Title: Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode
- Title(参考訳): 簡易かつ効率的な変圧器 : 大規模NLPモードのためのスケーラブル推論ソリューション
- Authors: Gongzheng li, Yadong Xi, Jingzhen Ding, Duan Wang, Bai Liu, Changjie
Fan, Xiaoxi Mao, Zeng Zhao
- Abstract要約: 本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
- 参考スコア(独自算出の注目度): 14.321889138798072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ultra-large-scale pre-training model can effectively improve the effect
of a variety of tasks, and it also brings a heavy computational burden to
inference. This paper introduces a series of ultra-large-scale pre-training
model optimization methods that combine algorithm characteristics and GPU
processor hardware characteristics, and on this basis, propose an inference
engine -- Easy and Efficient Transformer (EET), Which has a significant
performance improvement over the existing schemes.
We firstly introduce a pre-padding decoding mechanism that improves token
parallelism for generation tasks. Then we design high optimized kernels to
remove sequence masks and achieve cost-free calculation for padding tokens, as
well as support long sequence and long embedding sizes. Thirdly a user-friendly
inference system with an easy service pipeline was introduced which greatly
reduces the difficulty of engineering deployment with high throughput. Compared
to Faster Transformer's implementation for GPT-2 on A100, EET achieves a
1.5-15x state-of-art speedup varying with context length.EET is available
https://github.com/NetEase-FuXi/EET.
- Abstract(参考訳): 超大規模事前学習モデルは、様々なタスクの効果を効果的に改善すると同時に、推論に重い計算負荷をもたらす。
本稿では,アルゴリズム特性とgpuプロセッサハードウェア特性を組み合わせた超大規模事前学習モデル最適化手法を提案する。
まず,生成タスクのトークン並列性を改善するプリパディング復号機構を導入する。
次に,シークエンスマスクを除去し,パディングトークンのコストフリー計算を実現するとともに,長いシークエンスと長い埋め込みサイズをサポートするために,高度に最適化されたカーネルを設計する。
第3に,簡単なサービスパイプラインを備えたユーザフレンドリな推論システムを導入して,スループットの高いエンジニアリングデプロイメントの困難さを大幅に削減した。
A100上でのGPT-2のFaster Transformerの実装と比較すると、EETはコンテキスト長に応じて1.5~15倍の最先端の高速化を実現している。
関連論文リスト
- Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - TurboTransformers: An Efficient GPU Serving System For Transformer
Models [17.4637724940437]
TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。
GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。
メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。
新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
論文 参考訳(メタデータ) (2020-10-09T07:28:38Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z) - An Efficient Accelerator Design Methodology for Deformable Convolutional
Networks [16.392643034008348]
FPGA上での変形可能な畳み込みを高速化する新しい手法を提案する。
受容場を最適化することにより、受容場の最大サイズを12.6倍に圧縮することができる。
我々の加速器は最先端の加速器で最大17.25倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2020-06-09T13:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。