論文の概要: Galvatron: Efficient Transformer Training over Multiple GPUs Using
Automatic Parallelism
- arxiv url: http://arxiv.org/abs/2211.13878v1
- Date: Fri, 25 Nov 2022 03:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 19:00:27.178301
- Title: Galvatron: Efficient Transformer Training over Multiple GPUs Using
Automatic Parallelism
- Title(参考訳): Galvatron: 自動並列処理を用いた複数のGPU上での効率的なトランスフォーマートレーニング
- Authors: Xupeng Miao, Yujie Wang, Youhe Jiang, Chunan Shi, Xiaonan Nie, Hailin
Zhang, Bin Cui
- Abstract要約: 我々は、最も効率的なハイブリッド並列化戦略を自動的に見つけるフレームワークであるGalvatronを提案する。
Galvatronは常に、並列性に制限のある以前の作業と比べて、優れたシステムスループットを実現している。
- 参考スコア(独自算出の注目度): 25.928940638269534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have achieved state-of-the-art performance on various
domains of applications and gradually becomes the foundations of the advanced
large deep learning (DL) models. However, how to train these models over
multiple GPUs efficiently is still challenging due to a large number of
parallelism choices. Existing DL systems either rely on manual efforts to make
distributed training plans or apply parallelism combinations within a very
limited search space. In this approach, we propose Galvatron, a new system
framework that incorporates multiple popular parallelism dimensions and
automatically finds the most efficient hybrid parallelism strategy. To better
explore such a rarely huge search space, we 1) involve a decision tree to make
decomposition and pruning based on some reasonable intuitions, and then 2)
design a dynamic programming search algorithm to generate the optimal plan.
Evaluations on four representative Transformer workloads show that Galvatron
could perform automatically distributed training with different GPU memory
budgets. Among all evluated scenarios, Galvatron always achieves superior
system throughput compared to previous work with limited parallelism.
- Abstract(参考訳): トランスフォーマーモデルは、様々な分野のアプリケーションで最先端のパフォーマンスを達成し、徐々に高度な大規模ディープラーニング(DL)モデルの基盤となっている。
しかし、これらのモデルを複数のGPU上で効率的にトレーニングする方法は、多くの並列性選択のために依然として難しい。
既存のDLシステムは、分散トレーニング計画を手作業で作成するか、非常に限られた検索空間内で並列性の組み合わせを適用している。
本稿では,複数の一般的な並列化次元を組み込んだ新しいシステムフレームワークであるGalvatronを提案し,最も効率的なハイブリッド並列化戦略を自動で見つける。
このような巨大な検索空間をよりよく探索するために
1) 合理的な直観に基づいて分解及び刈り取りを行う決定木を含む。
2)最適計画を生成するために動的計画探索アルゴリズムを設計する。
4つの代表的なtransformerワークロードの評価から、galvatronはgpuメモリ予算の異なる自動分散トレーニングを実行可能であることが分かる。
すべての拡張シナリオの中で、Galvatronは常に、制限された並列性を持つ以前の処理に比べて優れたシステムスループットを達成する。
関連論文リスト
- Saturn: An Optimized Data System for Large Model Deep Learning Workloads [6.377812618046872]
SPASEに取り組む: 並列性を選択し、リソースをアロケートし、スケジューリングする。
本研究では,SPASE問題に全体的に取り組むための新しい情報システムアーキテクチャを提案する。
また,MILPソルバの直接使用は,複数のベースラインよりも有意に有効であることがわかった。
論文 参考訳(メタデータ) (2023-09-03T17:19:11Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - SuperScaler: Supporting Flexible DNN Parallelization via a Unified
Abstraction [17.82865339337427]
SuperScalerはフレキシブル並列化計画の設計と生成を容易にするシステムである。
計画設計と生成を、モデル変換、時空間スケジューリング、データ依存保存という3つの逐次フェーズに明示的に定式化します。
その結果、SuperScalerは経験的な並列化計画を生成するだけでなく、3.5倍のスピードアップを達成する新しい計画を構築することができる。
論文 参考訳(メタデータ) (2023-01-21T17:47:55Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文 参考訳(メタデータ) (2022-01-28T10:13:35Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。