論文の概要: Sequence Parallelism: Making 4D Parallelism Possible
- arxiv url: http://arxiv.org/abs/2105.13120v1
- Date: Wed, 26 May 2021 13:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:04:22.391255
- Title: Sequence Parallelism: Making 4D Parallelism Possible
- Title(参考訳): シーケンス並列性:4D並列性を実現する
- Authors: Shenggui Li, Fuzhao Xue, Yongbin Li, Yang You
- Abstract要約: 我々は、入力シーケンスの長さ制限を破り、GPU上で長いシーケンスでトレーニングするのに役立つシーケンス並列性を提案する。
リングオールリデューサにインスパイアされたリングスタイル通信と自己アテンション計算を統合し,リング自己アテンション(RSA)を提案する。
- 参考スコア(独自算出の注目度): 10.08109995764072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Within Transformer, self-attention is the key module to learn powerful
context-aware representations. However, self-attention suffers from quadratic
memory requirements with respect to the sequence length, which limits us to
process longer sequence on GPU. In this work, we propose sequence parallelism,
a memory efficient parallelism method to help us break input sequence length
limitation and train with longer sequence on GPUs. Compared with existing
parallelism, our approach no longer requires a single device to hold the whole
sequence. Specifically, we split the input sequence into multiple chunks and
feed each chunk into its corresponding device (i.e. GPU). To compute the
attention output, we communicate attention embeddings among GPUs. Inspired by
ring all-reduce, we integrated ring-style communication with self-attention
calculation and proposed Ring Self-Attention (RSA). Our implementation is fully
based on PyTorch. Without extra compiler or library changes, our approach is
compatible with data parallelism and pipeline parallelism. Experiments show
that sequence parallelism performs well when scaling with batch size and
sequence length. Compared with tensor parallelism, our approach achieved
$13.7\times$ and $3.0\times$ maximum batch size and sequence length
respectively when scaling up to 64 NVIDIA P100 GPUs. We plan to integrate our
sequence parallelism with data, pipeline and tensor parallelism to further
train large-scale models with 4D parallelism in our future work.
- Abstract(参考訳): トランスフォーマでは、セルフアテンションが強力なコンテキスト認識表現を学ぶためのキーモジュールである。
しかし、自己注意はシーケンス長に関して二次記憶要求に悩まされ、GPU上でより長いシーケンスを処理することが制限される。
本稿では,入力シーケンス長制限を破ってgpu上で長いシーケンスでトレーニングするメモリ効率のよい並列処理手法であるsequence parallelismを提案する。
既存の並列処理と比較して、我々のアプローチはシーケンス全体を保持するために単一のデバイスを必要としない。
具体的には、入力シーケンスを複数のチャンクに分割し、各チャンクを対応するデバイス(すなわち、)に供給する。
GPU)。
注意出力を計算するため、GPU間の注意埋め込みを通信する。
リングオールリデューサにインスパイアされたリング型通信と自己注意計算を統合し,リング自己注意(RSA)を提案する。
私たちの実装は完全にPyTorchをベースにしています。
追加のコンパイラやライブラリの変更がなければ、このアプローチはデータ並列処理やパイプライン並列処理と互換性があります。
実験の結果,バッチサイズやシーケンス長のスケーリングでは,シーケンス並列性が良好に動作することがわかった。
テンソル並列処理と比較して、64 nvidia p100 gpuまでスケールアップすると、それぞれ13.7\times$と$3.0\times$のバッチサイズとシーケンス長がそれぞれ達成された。
今後,データ,パイプライン,テンソル並列処理とシーケンシャル並列処理を統合して,4次元並列処理による大規模モデルをさらにトレーニングする予定です。
関連論文リスト
- xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism [5.704297874096985]
拡散モデルは高品質の画像やビデオを生成する上で重要な要素である。
本稿では,DiTの総合的並列推論エンジンであるxDiTを紹介する。
特に、Ethernetに接続されたGPUクラスタ上でDiTsのスケーラビリティを最初に示すのは、私たちです。
論文 参考訳(メタデータ) (2024-11-04T01:40:38Z) - Linear Attention Sequence Parallelism [33.06590170649837]
線形アテンションに基づく言語モデルに適した,効率的なシーケンス並列 (SP) 手法であるLinear Attention Sequence Parallel (LASP) を導入する。
LASP は,SP の通信オーバーヘッドを著しく低減する,線形注意による右産物カーネルのトリックを生かしている。
LASPは1Bモデル上で128のA100 80G GPUを使用してシーケンス長を最大4096Kまでスケールする。
論文 参考訳(メタデータ) (2024-04-03T17:33:21Z) - Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。
既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。
本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文 参考訳(メタデータ) (2023-11-04T11:38:53Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Enabling Multi-threading in Heterogeneous Quantum-Classical Programming
Models [53.937052213390736]
量子カーネルの並列実行を可能にするために,C++ベースの並列コンストラクトを導入する。
予備的な性能の結果は、カーネル毎に12スレッドのベルカーネルを2回実行し、カーネルを次々に実行する並列性能が向上したことを示している。
論文 参考訳(メタデータ) (2023-01-27T06:48:37Z) - Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on
Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。
BH t-SNEアルゴリズムは既存のCPU実装では非効率である。
Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文 参考訳(メタデータ) (2022-12-22T06:38:40Z) - Breadth-First Pipeline Parallelism [0.0]
Breadth-First Pipeline並列処理は、トレーニング時間、コスト、メモリ使用量を削減する。
高いGPU利用率とGPU当たりのバッチサイズを組み合わせ、完全にシャーディングされたデータ並列性を活用する。
論文 参考訳(メタデータ) (2022-11-11T02:00:32Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。