Fugu-MT 論文翻訳(概要): Breadth-First Pipeline Parallelism

論文の概要: Breadth-First Pipeline Parallelism

arxiv url: http://arxiv.org/abs/2211.05953v2
Date: Thu, 6 Jul 2023 19:03:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 16:05:54.880004
Title: Breadth-First Pipeline Parallelism
Title（参考訳）: ブレッドスファーストパイプライン並列処理
Authors: Joel Lamy-Poirier
Abstract要約: Breadth-First Pipeline並列処理は、トレーニング時間、コスト、メモリ使用量を削減する。高いGPU利用率とGPU当たりのバッチサイズを組み合わせ、完全にシャーディングされたデータ並列性を活用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce Breadth-First Pipeline Parallelism, a novel training schedule which optimizes the combination of pipeline and data parallelism. Breadth-First Pipeline Parallelism lowers training time, cost and memory usage by combining a high GPU utilization with a small batch size per GPU, and by making use of fully sharded data parallelism. Experimentally, we observed an increase of up to 43% in training throughput for a 52 billion-parameter model using a small batch size per GPU compared to Megatron-LM, which would reduce the training time and cost by the same amount on a large GPU cluster.
Abstract（参考訳）: パイプラインとデータ並列性の組み合わせを最適化する,新たなトレーニングスケジュールであるBreadth-First Pipeline Parallelismを導入する。 Breadth-First Pipeline Parallelismは、GPU使用率の高いGPUとGPU毎のバッチサイズを併用し、完全なシャードデータ並列性を使用することで、トレーニング時間、コスト、メモリ使用率を低下させる。実験では、megatron-lmと比較して、gpu当たりのバッチサイズが小さい52億パラメタモデルでは、トレーニングスループットが最大43%向上し、大きなgpuクラスタで同じ量でトレーニング時間とコストが削減されることがわかった。

関連論文リスト

HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。 GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-11-19T08:09:18Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training [8.637147484753948]
PipeFillは、他の保留中のジョブの実行でパイプラインバブルを埋める。大規模なLLMトレーニングで使用されるGPUでは,PipeFillが全体の利用率を最大63%向上させることができる。
論文参考訳（メタデータ） (2024-09-23T22:39:05Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
GSplit: Scaling Graph Neural Network Training on Large Graphs via Split-Parallelism [6.3568605707961]
ミニバッチトレーニングは、大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングするために一般的に使用される。本稿では,スプリット・パララリズム(split parallelism)と呼ばれる,ハイブリッド並列型ミニバッチ・トレーニングパラダイムを提案する。分割並列性はDGLやQuiver,P3$といった最先端のミニバッチトレーニングシステムよりも優れています。
論文参考訳（メタデータ） (2023-03-24T03:28:05Z)
SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文参考訳（メタデータ） (2023-01-27T18:55:19Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
BaPipe: Exploration of Balanced Pipeline Parallelism for DNN Training [9.551339069298011]
BaPipeは分散ディープラーニングのためのパイプライン並列化トレーニングフレームワークである。パイプライン並列性トレーニングメソッドと分散トレーニングのためのバランスの取れたパーティション戦略を自動で探索する。 BaPipeは、様々なプラットフォームで最大3.2倍のスピードアップと4倍のメモリ削減を提供する。
論文参考訳（メタデータ） (2020-12-23T08:57:39Z)
Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文参考訳（メタデータ） (2020-09-18T02:38:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。