Fugu-MT 論文翻訳(概要): Sequence Parallelism: Making 4D Parallelism Possible

論文の概要: Sequence Parallelism: Making 4D Parallelism Possible

arxiv url: http://arxiv.org/abs/2105.13120v1
Date: Wed, 26 May 2021 13:40:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-28 16:04:22.391255
Title: Sequence Parallelism: Making 4D Parallelism Possible
Title（参考訳）: シーケンス並列性:4D並列性を実現する
Authors: Shenggui Li, Fuzhao Xue, Yongbin Li, Yang You
Abstract要約: 我々は、入力シーケンスの長さ制限を破り、GPU上で長いシーケンスでトレーニングするのに役立つシーケンス並列性を提案する。リングオールリデューサにインスパイアされたリングスタイル通信と自己アテンション計算を統合し,リング自己アテンション(RSA)を提案する。
参考スコア（独自算出の注目度）: 10.08109995764072
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Within Transformer, self-attention is the key module to learn powerful context-aware representations. However, self-attention suffers from quadratic memory requirements with respect to the sequence length, which limits us to process longer sequence on GPU. In this work, we propose sequence parallelism, a memory efficient parallelism method to help us break input sequence length limitation and train with longer sequence on GPUs. Compared with existing parallelism, our approach no longer requires a single device to hold the whole sequence. Specifically, we split the input sequence into multiple chunks and feed each chunk into its corresponding device (i.e. GPU). To compute the attention output, we communicate attention embeddings among GPUs. Inspired by ring all-reduce, we integrated ring-style communication with self-attention calculation and proposed Ring Self-Attention (RSA). Our implementation is fully based on PyTorch. Without extra compiler or library changes, our approach is compatible with data parallelism and pipeline parallelism. Experiments show that sequence parallelism performs well when scaling with batch size and sequence length. Compared with tensor parallelism, our approach achieved $13.7\times$ and $3.0\times$ maximum batch size and sequence length respectively when scaling up to 64 NVIDIA P100 GPUs. We plan to integrate our sequence parallelism with data, pipeline and tensor parallelism to further train large-scale models with 4D parallelism in our future work.
Abstract（参考訳）: トランスフォーマでは、セルフアテンションが強力なコンテキスト認識表現を学ぶためのキーモジュールである。しかし、自己注意はシーケンス長に関して二次記憶要求に悩まされ、GPU上でより長いシーケンスを処理することが制限される。本稿では,入力シーケンス長制限を破ってgpu上で長いシーケンスでトレーニングするメモリ効率のよい並列処理手法であるsequence parallelismを提案する。既存の並列処理と比較して、我々のアプローチはシーケンス全体を保持するために単一のデバイスを必要としない。具体的には、入力シーケンスを複数のチャンクに分割し、各チャンクを対応するデバイス(すなわち、)に供給する。 GPU)。注意出力を計算するため、GPU間の注意埋め込みを通信する。リングオールリデューサにインスパイアされたリング型通信と自己注意計算を統合し,リング自己注意(RSA)を提案する。私たちの実装は完全にPyTorchをベースにしています。追加のコンパイラやライブラリの変更がなければ、このアプローチはデータ並列処理やパイプライン並列処理と互換性があります。実験の結果,バッチサイズやシーケンス長のスケーリングでは,シーケンス並列性が良好に動作することがわかった。テンソル並列処理と比較して、64 nvidia p100 gpuまでスケールアップすると、それぞれ13.7\times$と$3.0\times$のバッチサイズとシーケンス長がそれぞれ達成された。今後,データ,パイプライン,テンソル並列処理とシーケンシャル並列処理を統合して,4次元並列処理による大規模モデルをさらにトレーニングする予定です。

関連論文リスト

HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism [5.704297874096985]
拡散モデルは高品質の画像やビデオを生成する上で重要な要素である。本稿では,DiTの総合的並列推論エンジンであるxDiTを紹介する。特に、Ethernetに接続されたGPUクラスタ上でDiTsのスケーラビリティを最初に示すのは、私たちです。
論文参考訳（メタデータ） (2024-11-04T01:40:38Z)
USP: A Unified Sequence Parallelism Approach for Long Context Generative AI [1.973144426163543]
シーケンス並列性(SP)は、生成AIモデルの長期コンテキスト機能をアンロックする鍵となっている。本稿では,最先端SPアプローチ,すなわちDeepSpeed-UlyssesとRing-Attentionについて検討し,統一SPアプローチを提案する。 LLAMA3-8BモデルトレーニングにSPを用いた2つの8xA800ノードに対して,シーケンス長208Kを用いた47%のMFUを達成した。
論文参考訳（メタデータ） (2024-05-13T13:08:02Z)
Linear Attention Sequence Parallelism [33.06590170649837]
線形アテンションに基づく言語モデルに適した,効率的なシーケンス並列 (SP) 手法であるLinear Attention Sequence Parallel (LASP) を導入する。 LASP は,SP の通信オーバーヘッドを著しく低減する,線形注意による右産物カーネルのトリックを生かしている。 LASPは1Bモデル上で128のA100 80G GPUを使用してシーケンス長を最大4096Kまでスケールする。
論文参考訳（メタデータ） (2024-04-03T17:33:21Z)
Ultra-Long Sequence Distributed Transformer [10.263668150008316]
長いシーケンスで訓練されたトランスフォーマーモデルは、しばしば短いシーケンスよりも高い精度を達成する。既存のロングシーケンストレーニングの方法は、制限されたスピードアップとメモリ削減を提供する。本稿では,新しい分散学習手法であるLong Short-Sequence Transformerを提案する。
論文参考訳（メタデータ） (2023-11-04T11:38:53Z)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。 DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文参考訳（メタデータ） (2023-09-25T20:15:57Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
Enabling Multi-threading in Heterogeneous Quantum-Classical Programming Models [53.937052213390736]
量子カーネルの並列実行を可能にするために,C++ベースの並列コンストラクトを導入する。予備的な性能の結果は、カーネル毎に12スレッドのベルカーネルを2回実行し、カーネルを次々に実行する並列性能が向上したことを示している。
論文参考訳（メタデータ） (2023-01-27T06:48:37Z)
Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。 BH t-SNEアルゴリズムは既存のCPU実装では非効率である。 Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文参考訳（メタデータ） (2022-12-22T06:38:40Z)
Breadth-First Pipeline Parallelism [0.0]
Breadth-First Pipeline並列処理は、トレーニング時間、コスト、メモリ使用量を削減する。高いGPU利用率とGPU当たりのバッチサイズを組み合わせ、完全にシャーディングされたデータ並列性を活用する。
論文参考訳（メタデータ） (2022-11-11T02:00:32Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。