論文の概要: Chimera: Efficiently Training Large-Scale Neural Networks with
Bidirectional Pipelines
- arxiv url: http://arxiv.org/abs/2107.06925v1
- Date: Wed, 14 Jul 2021 18:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 13:51:03.435422
- Title: Chimera: Efficiently Training Large-Scale Neural Networks with
Bidirectional Pipelines
- Title(参考訳): Chimera: 双方向パイプラインによる大規模ニューラルネットワークの効率的なトレーニング
- Authors: Shigang Li, Torsten Hoefler
- Abstract要約: 本稿では,大規模モデルを効率的に学習するための双方向パイプラインを組み合わせた新しいパイプライン並列化手法であるChimeraを提案する。
最新の同期パイプラインアプローチと比較して、Chimeraはバブルの数を最大50%削減する。
Piz Daintスーパーコンピュータの2,048のGPUノード上で動作する13億のパラメータを持つGPT-2モデルにおいて、Chimeraは、最先端の同期および非同期パイプラインアプローチよりも1.16x-2.34xのトレーニングスループットを改善する。
- 参考スコア(独自算出の注目度): 12.111791984894609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large deep learning models at scale is very challenging. This paper
proposes Chimera, a novel pipeline parallelism scheme which combines
bidirectional pipelines for efficiently training large-scale models. Chimera is
a synchronous approach and therefore no loss of accuracy, which is more
convergence-friendly than asynchronous approaches. Compared with the latest
synchronous pipeline approach, Chimera reduces the number of bubbles by up to
50%; benefiting from the sophisticated scheduling of bidirectional pipelines,
Chimera has a more balanced activation memory consumption. Evaluations are
conducted on Transformer based language models. For a GPT-2 model with 1.3
billion parameters running on 2,048 GPU nodes of the Piz Daint supercomputer,
Chimera improves the training throughput by 1.16x-2.34x over the
state-of-the-art synchronous and asynchronous pipeline approaches.
- Abstract(参考訳): 大規模なディープラーニングモデルのトレーニングは非常に難しい。
本稿では,大規模モデルを効率的に学習するための双方向パイプラインを組み合わせた新しいパイプライン並列化スキームchimeraを提案する。
chimeraは同期アプローチであるため、精度の損失はなく、非同期アプローチよりもコンバージェンスフレンドリである。
最新の同期パイプラインアプローチと比較して、chimeraはバブル数を最大50%削減する。双方向パイプラインの高度なスケジューリングによって、chimeraはよりバランスのとれたアクティベーションメモリ消費量を持つ。
トランスフォーマーに基づく言語モデルを用いて評価を行う。
Piz Daintスーパーコンピュータの2,048のGPUノード上で動作する13億のパラメータを持つGPT-2モデルにおいて、Chimeraは最先端の同期および非同期パイプラインアプローチよりも1.16x-2.34xのトレーニングスループットを向上させる。
関連論文リスト
- BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - 2BP: 2-Stage Backpropagation [0.0]
本稿では2段階バックプロパゲーション(2BP)を紹介する。
後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。
2BPでは従来の手法に比べてスループットが1.70倍向上した。
論文 参考訳(メタデータ) (2024-05-28T11:02:01Z) - Zero Bubble Pipeline Parallelism [6.7021820542657045]
実験により,本手法は1F1Bのスループットを23%まで向上させることを示した。
パイプライン並列化の真の可能性を活用する上で、我々の結果は大きな一歩だと信じています。
論文 参考訳(メタデータ) (2023-11-30T10:40:34Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - EnergonAI: An Inference System for 10-100 Billion Parameter Transformer
Models [17.62360528651639]
我々は,10~1000億のパラメータトランスモデルの効率的な展開の課題を解決するために,EnergonAIを提案する。
EgonAIは階層制御システムアーキテクチャを採用し、複数のデバイスをコーディネートし、異なる並列パターンを効率的にサポートする。
FasterTransformerと比較すると、EnergonAIはレイテンシとスループットにおいて優れたパフォーマンスがあることが証明されています。
論文 参考訳(メタデータ) (2022-09-06T10:02:58Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。