Fugu-MT 論文翻訳(概要): 2BP: 2-Stage Backpropagation

論文の概要: 2BP: 2-Stage Backpropagation

arxiv url: http://arxiv.org/abs/2405.18047v1
Date: Tue, 28 May 2024 11:02:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 19:08:25.374224
Title: 2BP: 2-Stage Backpropagation
Title（参考訳）: 2BP: 2段階のバックプロパゲーション
Authors: Christopher Rae, Joseph K. L. Lee, James Richings,
Abstract要約: 本稿では2段階バックプロパゲーション(2BP)を紹介する。後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。 2BPでは従来の手法に比べてスループットが1.70倍向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Deep Neural Networks (DNNs) grow in size and complexity, they often exceed the memory capacity of a single accelerator, necessitating the sharding of model parameters across multiple accelerators. Pipeline parallelism is a commonly used sharding strategy for training large DNNs. However, current implementations of pipeline parallelism are being unintentionally bottlenecked by the automatic differentiation tools provided by ML frameworks. This paper introduces 2-stage backpropagation (2BP). By splitting the backward propagation step into two separate stages, we can reduce idle compute time. We tested 2BP on various model architectures and pipelining schedules, achieving increases in throughput in all cases. Using 2BP, we were able to achieve a 1.70x increase in throughput compared to traditional methods when training a LLaMa-like transformer with 7 billion parameters across 4 GPUs.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)のサイズと複雑さが大きくなるにつれて、単一のアクセラレータのメモリ容量を超えることが多く、複数のアクセラレータをまたいだモデルパラメータのシャーディングが必要になる。パイプライン並列性は、大規模なDNNをトレーニングするための一般的なシャーディング戦略である。しかし、パイプライン並列化の現在の実装は、MLフレームワークが提供する自動微分ツールによって意図せずボトルネックになっている。本稿では,2段階のバックプロパゲーション(2BP)を紹介する。後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。様々なモデルアーキテクチャとパイプラインのスケジュールで2BPをテストし、すべてのケースでスループットの向上を実現しました。 2BPを使用することで、4つのGPUで70億のパラメータを持つLLaMaライクなトランスフォーマーをトレーニングする従来の方法と比較して、スループットが1.70倍向上しました。

関連論文リスト

DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。 LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文参考訳（メタデータ） (2025-07-03T22:53:34Z)
HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
SlimPipe: Memory-Thrifty and Efficient Pipeline Parallelism for Long-Context LLM Training [21.93724007255793]
SlimPipeは、きめ細かいパイプライン並列化に対する新しいアプローチである。蓄積した活性化をいくつかのマイクロバッチから1つに減らし、いくつかのスライスに分割する。ほぼゼロのメモリオーバーヘッドを達成し、(2)パイプラインバブルを同時に最小化する。
論文参考訳（メタデータ） (2025-04-20T07:33:33Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。分散トレーニングシステムに固有の機能的冗長性を活用する。複数の障害で高いトレーニングスループットを実現していることを示す。
論文参考訳（メタデータ） (2024-05-22T21:35:56Z)
Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。 PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文参考訳（メタデータ） (2023-04-22T14:09:14Z)
Pipe-BD: Pipelined Parallel Blockwise Distillation [7.367308544773381]
ブロックワイド蒸留のための新しい並列化法であるパイプ-BDを提案する。パイプ-BDはパイプライン並列性をブロックワイド蒸留に積極的に利用する。 PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。
論文参考訳（メタデータ） (2023-01-29T13:38:43Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
PipeTransformer: Automated Elastic Pipelining for Distributed Training of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。 GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文参考訳（メタデータ） (2021-02-05T13:39:31Z)
BaPipe: Exploration of Balanced Pipeline Parallelism for DNN Training [9.551339069298011]
BaPipeは分散ディープラーニングのためのパイプライン並列化トレーニングフレームワークである。パイプライン並列性トレーニングメソッドと分散トレーニングのためのバランスの取れたパーティション戦略を自動で探索する。 BaPipeは、様々なプラットフォームで最大3.2倍のスピードアップと4倍のメモリ削減を提供する。
論文参考訳（メタデータ） (2020-12-23T08:57:39Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)
Memory-Efficient Pipeline-Parallel DNN Training [27.83107540482083]
PipeDream-2BWは、メモリ効率の高いパイプライン並列処理をサポートするシステムである。大規模なGPTおよびBERT言語モデルのトレーニングを20$times$で、同様の最終モデルの精度で高速化することができる。
論文参考訳（メタデータ） (2020-06-16T20:33:54Z)
Accelerating Feedforward Computation via Parallel Nonlinear Equation Solving [106.63673243937492]
ニューラルネットワークの評価や自己回帰モデルからのサンプリングなどのフィードフォワード計算は、機械学習においてユビキタスである。本稿では,非線形方程式の解法としてフィードフォワード計算の課題を定式化し,ジャコビ・ガウス・シーデル固定点法とハイブリッド法を用いて解を求める。提案手法は, 並列化可能な繰り返し回数の削減(あるいは等値化)により, 元のフィードフォワード計算と全く同じ値が与えられることを保証し, 十分な並列化計算能力を付与する。
論文参考訳（メタデータ） (2020-02-10T10:11:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。