論文の概要: Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning
- arxiv url: http://arxiv.org/abs/2201.12023v1
- Date: Fri, 28 Jan 2022 10:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 16:34:38.034931
- Title: Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning
- Title(参考訳): alpa: 分散ディープラーニングのための操作間並列処理の自動化
- Authors: Lianmin Zheng, Zhuohan Li, Hao Zhang, Yonghao Zhuang, Zhifeng Chen,
Yanping Huang, Yida Wang, Yuanzhong Xu, Danyang Zhuo, Joseph E. Gonzalez, Ion
Stoica
- Abstract要約: Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
- 参考スコア(独自算出の注目度): 54.99749970495241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Alpa automates model-parallel training of large deep learning (DL) models by
generating execution plans that unify data, operator, and pipeline parallelism.
Existing model-parallel training systems either require users to manually
create a parallelization plan or automatically generate one from a limited
space of model parallelism configurations, which does not suffice to scale out
complex DL models on distributed compute devices. Alpa distributes the training
of large DL models by viewing parallelisms as two hierarchical levels:
inter-operator and intra-operator parallelisms. Based on it, Alpa constructs a
new hierarchical space for massive model-parallel execution plans. Alpa designs
a number of compilation passes to automatically derive the optimal parallel
execution plan in each independent parallelism level and implements an
efficient runtime to orchestrate the two-level parallel execution on
distributed compute devices. Our evaluation shows Alpa generates
parallelization plans that match or outperform hand-tuned model-parallel
training systems even on models they are designed for. Unlike specialized
systems, Alpa also generalizes to models with heterogeneous architectures and
models without manually-designed plans.
- Abstract(参考訳): Alpaは、データ、オペレータ、パイプライン並列性を統一する実行計画を生成することで、大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
既存のモデル並列トレーニングシステムは、ユーザが手動で並列化計画を作成するか、モデル並列化設定の限られたスペースから自動的にモデルを生成する必要があるが、分散コンピューティングデバイス上で複雑なDLモデルをスケールアウトするのに十分ではない。
Alpaは、大きなDLモデルのトレーニングを、並列化を2つの階層レベルとして見ることによって配布する。
これに基づいて、Alpaは大規模なモデル並列実行計画のための新しい階層空間を構築している。
Alpaは複数のコンパイルパスを設計し、各独立した並列処理レベルで最適な並列実行計画を自動的に導出し、分散コンピューティングデバイス上で2レベル並列実行をオーケストレーションする効率的なランタイムを実装している。
評価の結果,alpaが設計したモデルでも,ハンドチューニング型モデル並列トレーニングシステムと一致するか,あるいは上回る並列化計画を生成することがわかった。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
関連論文リスト
- ParallelSpec: Parallel Drafter for Efficient Speculative Decoding [62.68430939686566]
提案するParallelSpecは,最先端の投機的復号化手法における自己回帰的起草戦略の代替となる。
投機段階における自己回帰的起草とは対照的に,効率的な投機モデルとして機能する並列投機を訓練する。
論文 参考訳(メタデータ) (2024-10-08T01:05:08Z) - AlpaServe: Statistical Multiplexing with Model Parallelism for Deep
Learning Serving [53.01646445659089]
モデル並列性は、複数のモデルを提供する場合、複数のデバイスの統計多重化に利用できることを示す。
本稿では,大規模ディープラーニングモデルのコレクションを配置・並列化するための効率的な戦略を決定する新しいサービスシステムAlpaServeを提案する。
論文 参考訳(メタデータ) (2023-02-22T21:41:34Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - SuperScaler: Supporting Flexible DNN Parallelization via a Unified
Abstraction [17.82865339337427]
SuperScalerはフレキシブル並列化計画の設計と生成を容易にするシステムである。
計画設計と生成を、モデル変換、時空間スケジューリング、データ依存保存という3つの逐次フェーズに明示的に定式化します。
その結果、SuperScalerは経験的な並列化計画を生成するだけでなく、3.5倍のスピードアップを達成する新しい計画を構築することができる。
論文 参考訳(メタデータ) (2023-01-21T17:47:55Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。
RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。
RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文 参考訳(メタデータ) (2021-03-30T04:26:04Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。