論文の概要: LightSeq: A High Performance Inference Library for Transformers
- arxiv url: http://arxiv.org/abs/2010.13887v4
- Date: Thu, 22 Apr 2021 09:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:11:06.152394
- Title: LightSeq: A High Performance Inference Library for Transformers
- Title(参考訳): LightSeq: トランスフォーマーのための高性能な推論ライブラリ
- Authors: Xiaohui Wang, Ying Xiong, Yang Wei, Mingxuan Wang, Lei Li
- Abstract要約: LightSeqはTransformerモデルのための非常に効率的な推論ライブラリである。
LightSeqには、ニューラルネットワークレイヤの合理化とメモリフットプリント削減のための一連の最適化テクニックが含まれている。
- 参考スコア(独自算出の注目度): 39.13192008249629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer, BERT and their variants have achieved great success in natural
language processing. Since Transformer models are huge in size, serving these
models is a challenge for real industrial applications. In this paper, we
propose LightSeq, a highly efficient inference library for models in the
Transformer family. LightSeq includes a series of GPU optimization techniques
to to streamline the computation of neural layers and to reduce memory
footprint. LightSeq can easily import models trained using PyTorch and
Tensorflow. Experimental results on machine translation benchmarks show that
LightSeq achieves up to 14x speedup compared with TensorFlow and 1.4x compared
with FasterTransformer, a concurrent CUDA implementation. The code is available
at https://github.com/bytedance/lightseq.
- Abstract(参考訳): トランスフォーマー、バートとその変種は自然言語処理で大きな成功を収めている。
Transformerモデルは巨大であるため、これらのモデルを提供することは、実際の産業アプリケーションにとって課題である。
本稿では,Transformerファミリーのモデルに対する高効率な推論ライブラリであるLightSeqを提案する。
LightSeqには、ニューラルネットワーク層の計算を合理化し、メモリフットプリントを削減するための一連のGPU最適化技術が含まれている。
LightSeqは、PyTorchとTensorflowを使ってトレーニングされたモデルを簡単にインポートできる。
マシン翻訳ベンチマークの実験の結果、lightseqはtensorflowと1.4xと比較して最大14倍のスピードアップを達成している。
コードはhttps://github.com/bytedance/lightseqで入手できる。
関連論文リスト
- Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Fast Inference from Transformers via Speculative Decoding [3.950600027250452]
Transformersのような大規模な自己回帰モデルからの推論は遅く、Kトークンの復号化はモデルのKシリアル実行を伴います。
本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。
論文 参考訳(メタデータ) (2022-11-30T17:33:28Z) - LightSeq: Accelerated Training for Transformer-based Models on GPUs [19.02791119065971]
LightSeqは、GPU上でTransformerベースのモデルの効率的なトレーニングを行うシステムである。
BERT (encoder-only)、GPT (decoder-only)、Transformer (encoder-decoder)など、さまざまなネットワークアーキテクチャをサポートしている。
論文 参考訳(メタデータ) (2021-10-12T03:17:03Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FastSeq: Make Sequence Generation Faster [20.920579109726024]
我々は,精度を損なわずにシーケンス生成を高速化するFastSeqフレームワークを開発した。
様々なモデルで広く使われているベンチマークの結果は、4-9倍の推論速度向上を示す。
FastSeqは単純な1行のコード変更で簡単に使える。
論文 参考訳(メタデータ) (2021-06-08T22:25:28Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。