論文の概要: LightSeq: Accelerated Training for Transformer-based Models on GPUs
- arxiv url: http://arxiv.org/abs/2110.05722v1
- Date: Tue, 12 Oct 2021 03:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 01:12:05.973807
- Title: LightSeq: Accelerated Training for Transformer-based Models on GPUs
- Title(参考訳): LightSeq: GPU上のトランスフォーマーベースのモデルの高速化トレーニング
- Authors: Xiaohui Wang, Ying Xiong, Xian Qian, Yang Wei, Lei Li, Mingxuan Wang
- Abstract要約: LightSeqは、GPU上でTransformerベースのモデルの効率的なトレーニングを行うシステムである。
BERT (encoder-only)、GPT (decoder-only)、Transformer (encoder-decoder)など、さまざまなネットワークアーキテクチャをサポートしている。
- 参考スコア(独自算出の注目度): 19.02791119065971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have proven to be powerful in many natural language,
computer vision, and speech recognition applications. It is expensive to train
these types of models due to unfixed input length, complex computation, and
large numbers of parameters. Existing systems either only focus on efficient
inference or optimize only BERT-like encoder models. In this paper, we present
LightSeq, a system for efficient training of Transformer-based models on GPUs.
We propose a series of GPU optimization techniques tailored to computation flow
and memory access patterns of neural layers in Transformers. LightSeq supports
a variety of network architectures, including BERT (encoder-only), GPT
(decoder-only), and Transformer (encoder-decoder). Our experiments on GPUs with
varying models and datasets show that LightSeq is 1.4-3.5x faster than previous
systems. In particular, it gains 308% training speedup compared with existing
systems on a large public machine translation benchmark (WMT14 English-German).
- Abstract(参考訳): トランスフォーマーベースのモデルは、多くの自然言語、コンピュータビジョン、音声認識アプリケーションで強力であることが証明されている。
これらのモデルのトレーニングは、未修正の入力長、複雑な計算、そして大量のパラメータのために高価である。
既存のシステムは効率的な推論のみにフォーカスするか、bertライクなエンコーダモデルのみを最適化する。
本稿では,GPU上でのTransformerベースのモデルの効率的なトレーニングシステムであるLightSeqを提案する。
本稿では,トランスフォーマーにおけるニューラルネットワークの計算フローとメモリアクセスパターンに適したgpu最適化手法を提案する。
LightSeqはBERT(エンコーダのみ)、GPT(デコーダのみ)、Transformer(エンコーダのみ)など、さまざまなネットワークアーキテクチャをサポートしている。
各種モデルとデータセットを用いたGPU実験の結果,LightSeqは従来のシステムに比べて1.4-3.5倍高速であることがわかった。
特に、大規模な公開機械翻訳ベンチマーク(WMT14英語-ドイツ語)の既存のシステムと比較して、トレーニング速度が308%向上している。
関連論文リスト
- 1M parameters are enough? A lightweight CNN-based model for medical
image segmentation [0.4129225533930966]
軽量なU-Netベースのモデルを模索しており、同じ状態を維持したり、より優れたパフォーマンス、すなわちU-Liteを実現できます。
我々は,CNNの強みを生かし,演算パラメータの著しい削減を図るために,Depthwise Separable Convolutionの原理に基づいてU-Liteを設計する。
全体として、U-Lite は 878K のパラメータしか持たず、従来の U-Net の35倍も小さく、現代の Transformer ベースのモデルよりもはるかに少ない。
論文 参考訳(メタデータ) (2023-06-28T11:17:37Z) - Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - LightSeq: A High Performance Inference Library for Transformers [39.13192008249629]
LightSeqはTransformerモデルのための非常に効率的な推論ライブラリである。
LightSeqには、ニューラルネットワークレイヤの合理化とメモリフットプリント削減のための一連の最適化テクニックが含まれている。
論文 参考訳(メタデータ) (2020-10-23T13:45:26Z) - GShard: Scaling Giant Models with Conditional Computation and Automatic
Sharding [46.74457030177477]
自動シャーディングを用いて,Sparsely-Gated Mixture-of-Expertsを用いた多言語ニューラルネットワーク翻訳トランスフォーマーモデルのスケールアップ方法を示す。
我々は,2048 TPU v3アクセラレーターを4日間で効率的に訓練し,100言語から英語への翻訳において,はるかに優れた品質を実現することを実証した。
論文 参考訳(メタデータ) (2020-06-30T10:42:02Z) - Efficient Wait-k Models for Simultaneous Machine Translation [46.01342928010307]
同時機械翻訳は、入力シーケンス全体が利用可能になる前に出力生成を開始することで構成される。
Wait-kデコーダは、この問題に対してシンプルだが効率的なアプローチを提供する。
IWSLTデータセットを用いた音声コーパスの低リソース設定におけるwait-k復号の動作について検討する。
論文 参考訳(メタデータ) (2020-05-18T11:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。