論文の概要: TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models
- arxiv url: http://arxiv.org/abs/2102.07988v1
- Date: Tue, 16 Feb 2021 07:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:14:10.689280
- Title: TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models
- Title(参考訳): TeraPipe:大規模言語モデルのトレーニングのためのトークンレベルパイプライン並列処理
- Authors: Zhuohan Li, Siyuan Zhuang, Shiyuan Guo, Danyang Zhuo, Hao Zhang, Dawn
Song, Ion Stoica
- Abstract要約: TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
- 参考スコア(独自算出の注目度): 60.23234205219347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model parallelism has become a necessity for training modern large-scale deep
language models. In this work, we identify a new and orthogonal dimension from
existing model parallel approaches: it is possible to perform pipeline
parallelism within a single training sequence for Transformer-based language
models thanks to its autoregressive property. This enables a more fine-grained
pipeline compared with previous work. With this key idea, we design TeraPipe, a
high-performance token-level pipeline parallel algorithm for synchronous
model-parallel training of Transformer-based language models. We develop a
novel dynamic programming-based algorithm to calculate the optimal pipelining
execution scheme given a specific model and cluster configuration. We show that
TeraPipe can speed up the training by 5.0x for the largest GPT-3 model with 175
billion parameters on an AWS cluster with 48 p3.16xlarge instances compared
with state-of-the-art model-parallel methods.
- Abstract(参考訳): モデル並列性は、現代の大規模ディープラーニングモデルのトレーニングに必要になった。
本稿では,既存のモデル並列アプローチから新たな直交次元を同定する: 自己回帰性により,トランスフォーマティブ言語モデルのための単一のトレーニングシーケンス内でパイプライン並列処理を行うことができる。
これにより、以前の作業よりもきめ細かいパイプラインが可能になる。
トランスフォーマーに基づく言語モデルの同期モデル並列トレーニングのための,高性能なトークンレベルのパイプライン並列アルゴリズムであるterapipeを設計した。
特定のモデルとクラスタ構成を与えられた最適なパイプライン実行スキームを計算するための動的プログラミングベースアルゴリズムを開発した。
TeraPipeは、48p3.16xlargeインスタンスを持つAWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを、最先端のモデル並列メソッドと比較して5.0倍高速化できることを示す。
関連論文リスト
- ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文 参考訳(メタデータ) (2022-01-28T10:13:35Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language
Models with Auto-parallel Computation [58.31465205357637]
PanGu-$alpha$という,最大200億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。
PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文 参考訳(メタデータ) (2021-04-26T06:59:36Z) - Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。
RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。
RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文 参考訳(メタデータ) (2021-03-30T04:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。