Fugu-MT 論文翻訳(概要): Scaling Deep Learning Training with MPMD Pipeline Parallelism

論文の概要: Scaling Deep Learning Training with MPMD Pipeline Parallelism

arxiv url: http://arxiv.org/abs/2412.14374v1
Date: Wed, 18 Dec 2024 22:15:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.916276
Title: Scaling Deep Learning Training with MPMD Pipeline Parallelism
Title（参考訳）: MPMDパイプライン並列処理によるディープラーニング学習のスケールアップ
Authors: Anxhelo Xhebraj, Sean Lee, Hanfeng Chen, Vinod Grover,
Abstract要約: JaxPPは、柔軟なパイプライン並列性を備えた大規模ディープラーニングモデルのトレーニングを効率的にスケールアップするシステムである。我々は,勾配蓄積のためのユーザ定義パイプラインスケジュールの実装を可能にする,シームレスなプログラミングモデルを導入する。 JaxPPは、パイプラインステージに対応するタスクをノードのクラスタ上に分散し、それら間の通信を自動的に推論する。
参考スコア（独自算出の注目度）: 0.5817641705019472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present JaxPP, a system for efficiently scaling the training of large deep learning models with flexible pipeline parallelism. We introduce a seamless programming model that allows implementing user-defined pipeline schedules for gradient accumulation. JaxPP automatically distributes tasks, corresponding to pipeline stages, over a cluster of nodes and automatically infers the communication among them. We implement a MPMD runtime for asynchronous execution of SPMD tasks. The pipeline parallelism implementation of JaxPP improves hardware utilization by up to $1.11\times$ with respect to the best performing SPMD configuration.
Abstract（参考訳）: 本稿では,大規模ディープラーニングモデルのトレーニングを,柔軟なパイプライン並列処理により効率的にスケールアップするシステムであるJaxPPを提案する。我々は,勾配蓄積のためのユーザ定義パイプラインスケジュールの実装を可能にする,シームレスなプログラミングモデルを導入する。 JaxPPは、パイプラインステージに対応するタスクをノードのクラスタ上で自動的に分散し、それら間の通信を自動的に推論する。我々はSPMDタスクの非同期実行のためのMPMDランタイムを実装した。 JaxPPのパイプライン並列化実装は、最高のSPMD構成に関して、ハードウェア使用率を最大$1.11\times$に改善する。

関連論文リスト

HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
PipeWeaver: Addressing Data Dynamicity in Large Multimodal Model Training with Dynamic Interleaved Pipeline [39.56060323129395]
PipeWeaverは大規模マルチモーダルモデル(LMM)のための動的パイプラインスケジューリングフレームワークである適応型モダリティ対応パーティショニングと効率的なパイプラインスケジュール探索という,LMMトレーニングの課題に対処する。実験の結果、PipeWeaverは最先端システムと比較してLMMトレーニングの効率を最大97.3%向上できることがわかった。
論文参考訳（メタデータ） (2025-04-19T02:30:11Z)
Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。 GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-11-19T08:09:18Z)
BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文参考訳（メタデータ） (2024-10-25T08:08:51Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines [15.332562681746081]
本稿では,シーケンス長の変動に対処し,マルチタスクモデルの効率的なトレーニングを実現するための動的マイクロバッチ手法を提案する。動的プログラミングを用いたマイクロバッチ構築を最適化し、動的パイプラインと通信スケジューリングによるマイクロバッチ実行時間変動を処理する。
論文参考訳（メタデータ） (2023-11-17T09:48:45Z)
Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。 PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文参考訳（メタデータ） (2023-04-22T14:09:14Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。 Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文参考訳（メタデータ） (2022-01-28T10:13:35Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
BaPipe: Exploration of Balanced Pipeline Parallelism for DNN Training [9.551339069298011]
BaPipeは分散ディープラーニングのためのパイプライン並列化トレーニングフレームワークである。パイプライン並列性トレーニングメソッドと分散トレーニングのためのバランスの取れたパーティション戦略を自動で探索する。 BaPipeは、様々なプラットフォームで最大3.2倍のスピードアップと4倍のメモリ削減を提供する。
論文参考訳（メタデータ） (2020-12-23T08:57:39Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。