Fugu-MT 論文翻訳(概要): TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models

論文の概要: TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models

arxiv url: http://arxiv.org/abs/2102.07988v1
Date: Tue, 16 Feb 2021 07:34:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-17 15:14:10.689280
Title: TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models
Title（参考訳）: TeraPipe:大規模言語モデルのトレーニングのためのトークンレベルパイプライン並列処理
Authors: Zhuohan Li, Siyuan Zhuang, Shiyuan Guo, Danyang Zhuo, Hao Zhang, Dawn Song, Ion Stoica
Abstract要約: TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
参考スコア（独自算出の注目度）: 60.23234205219347
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model parallelism has become a necessity for training modern large-scale deep language models. In this work, we identify a new and orthogonal dimension from existing model parallel approaches: it is possible to perform pipeline parallelism within a single training sequence for Transformer-based language models thanks to its autoregressive property. This enables a more fine-grained pipeline compared with previous work. With this key idea, we design TeraPipe, a high-performance token-level pipeline parallel algorithm for synchronous model-parallel training of Transformer-based language models. We develop a novel dynamic programming-based algorithm to calculate the optimal pipelining execution scheme given a specific model and cluster configuration. We show that TeraPipe can speed up the training by 5.0x for the largest GPT-3 model with 175 billion parameters on an AWS cluster with 48 p3.16xlarge instances compared with state-of-the-art model-parallel methods.
Abstract（参考訳）: モデル並列性は、現代の大規模ディープラーニングモデルのトレーニングに必要になった。本稿では,既存のモデル並列アプローチから新たな直交次元を同定する: 自己回帰性により,トランスフォーマティブ言語モデルのための単一のトレーニングシーケンス内でパイプライン並列処理を行うことができる。これにより、以前の作業よりもきめ細かいパイプラインが可能になる。トランスフォーマーに基づく言語モデルの同期モデル並列トレーニングのための,高性能なトークンレベルのパイプライン並列アルゴリズムであるterapipeを設計した。特定のモデルとクラスタ構成を与えられた最適なパイプライン実行スキームを計算するための動的プログラミングベースアルゴリズムを開発した。 TeraPipeは、48p3.16xlargeインスタンスを持つAWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを、最先端のモデル並列メソッドと比較して5.0倍高速化できることを示す。

関連論文リスト

MoE Parallel Folding: Heterogeneous Parallelism Mappings for Efficient Large-Scale MoE Model Training with Megatron Core [11.40633051522406]
大規模MOEモデルのエンドツーエンドトレーニングフレームワークを提案する。 MoE Parallel Foldingは、Transformerモデルにおける注目とMoEの並列化を分離する新しい戦略である。フレキシブルなトークンレベルディスパッチはトークンドロップとトークンドロップレスのMoEトレーニングの両方をサポートする。
論文参考訳（メタデータ） (2025-04-21T08:39:47Z)
ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。 atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-03-15T17:43:43Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。 Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文参考訳（メタデータ） (2022-01-28T10:13:35Z)
Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文参考訳（メタデータ） (2021-10-28T04:45:55Z)
PanGu-$\alpha$: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation [58.31465205357637]
PanGu-$alpha$という,最大200億パラメータの大規模オートレグレッシブ言語モデルをトレーニングするプラクティスを紹介します。 PanGu-$alpha$はMindSporeの下で開発され、2048 Ascend 910 AIプロセッサのクラスタでトレーニングされている。
論文参考訳（メタデータ） (2021-04-26T06:59:36Z)
Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。 RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。 RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文参考訳（メタデータ） (2021-03-30T04:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。