論文の概要: TurboTransformers: An Efficient GPU Serving System For Transformer
Models
- arxiv url: http://arxiv.org/abs/2010.05680v4
- Date: Sat, 20 Feb 2021 08:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:06:23.060325
- Title: TurboTransformers: An Efficient GPU Serving System For Transformer
Models
- Title(参考訳): Turbo Transformers: トランスフォーマーモデルのための効率的なGPUサービングシステム
- Authors: Jiarui Fang, Yang Yu, Chengduo Zhao, Jie Zhou
- Abstract要約: TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。
GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。
メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。
新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
- 参考スコア(独自算出の注目度): 17.4637724940437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer is the most critical algorithm innovation of the Nature
Language Processing (NLP) field in recent years. Unlike the Recurrent Neural
Network (RNN) models, Transformers can process on dimensions of sequence
lengths in parallel, therefore leading to better accuracy on long sequences.
However, efficient deployments of them for online services in data centers
equipped with GPUs are not easy. First, more computation introduced by
transformer structures makes it more challenging to meet the latency and
throughput constraints of serving. Second, NLP tasks take in sentences of
variable length. The variability of input dimensions brings a severe problem to
efficient memory management and serving optimization.
This paper designed a transformer serving system called TurboTransformers,
which consists of a computing runtime and a serving framework to solve the
above challenges. Three innovative features make it stand out from other
similar works. An efficient parallel algorithm is proposed for GPU-based batch
reduction operations, like Softmax and LayerNorm, major hot spots besides BLAS
routines. A memory allocation algorithm, which better balances the memory
footprint and allocation/free efficiency, is designed for variable-length input
situations. A serving framework equipped with a new batch scheduler using
dynamic programming achieves the optimal throughput on variable-length
requests. The system can achieve the state-of-the-art transformer model serving
performance on GPU platforms and can be seamlessly integrated into your PyTorch
code with a few lines of code.
- Abstract(参考訳): この変換器は近年のNature Language Processing(NLP)分野における最も重要なアルゴリズム革新である。
リカレントニューラルネットワーク(recurrent neural network, rnn)モデルとは異なり、トランスフォーマーはシーケンス長の次元を並列に処理できるため、長いシーケンスでの精度が向上する。
しかし、GPUを備えたデータセンターにおけるオンラインサービスのための効率的なデプロイは容易ではない。
まず、トランス構造によって導入されたより多くの計算により、サービスのレイテンシとスループットの制約を満たすことがより困難になる。
第二に、NLPタスクは可変長の文を取る。
入力次元のばらつきは、効率的なメモリ管理と最適化に深刻な問題をもたらす。
本稿では,TurboTransformersと呼ばれるトランスフォーマーサービスシステムを設計し,上記の課題を解決するためのコンピューティングランタイムとサービスフレームワークで構成される。
3つの革新的な特徴は、他の類似作品と際立っている。
BLASルーチン以外の主要なホットスポットであるSoftmaxやLayerNormといったGPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムが提案されている。
メモリフットプリントとアロケーション/フリー効率のバランスを良くするメモリ割り当てアルゴリズムは、可変長入力状況のために設計されている。
動的プログラミングを用いた新しいバッチスケジューラを備えたサービングフレームワークは、可変長要求の最適なスループットを達成する。
このシステムは、GPUプラットフォームのパフォーマンスを提供する最先端のトランスフォーマーモデルを実現し、数行のコードでPyTorchコードにシームレスに統合することができる。
関連論文リスト
- Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - ByteTransformer: A High-Performance Transformer Boosted for
Variable-Length Inputs [6.9136984255301]
可変長入力のために強化された高性能トランスであるByteTransformerを提案する。
ByteTransformerは、PyTorch JIT、XLA、Tencent TurboTransformer、NVIDIA FasterTransformerといった最先端のTransformerフレームワークを上回っている。
論文 参考訳(メタデータ) (2022-10-06T16:57:23Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。