論文の概要: SuperScaler: Supporting Flexible DNN Parallelization via a Unified
Abstraction
- arxiv url: http://arxiv.org/abs/2301.08984v1
- Date: Sat, 21 Jan 2023 17:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:32:16.317575
- Title: SuperScaler: Supporting Flexible DNN Parallelization via a Unified
Abstraction
- Title(参考訳): SuperScaler: 統一抽象化によるフレキシブルなDNN並列化をサポート
- Authors: Zhiqi Lin, Youshan Miao, Guodong Liu, Xiaoxiang Shi, Quanlu Zhang, Fan
Yang, Saeed Maleki, Yi Zhu, Xu Cao, Cheng Li, Mao Yang, Lintao Zhang, Lidong
Zhou
- Abstract要約: SuperScalerはフレキシブル並列化計画の設計と生成を容易にするシステムである。
計画設計と生成を、モデル変換、時空間スケジューリング、データ依存保存という3つの逐次フェーズに明示的に定式化します。
その結果、SuperScalerは経験的な並列化計画を生成するだけでなく、3.5倍のスピードアップを達成する新しい計画を構築することができる。
- 参考スコア(独自算出の注目度): 17.82865339337427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing model size, deep neural networks (DNN) are increasingly
trained over massive GPU accelerators, which demands a proper parallelization
plan that transforms a DNN model into fine-grained tasks and then schedules
them to GPUs for execution. Due to the large search space, the contemporary
parallelization plan generators often rely on empirical rules that couple
transformation and scheduling, and fall short in exploring more flexible
schedules that yield better memory usage and compute efficiency. This tension
can be exacerbated by the emerging models with increasing complexity in their
structure and model size. SuperScaler is a system that facilitates the design
and generation of highly flexible parallelization plans. It formulates the plan
design and generation into three sequential phases explicitly: model
transformation, space-time scheduling, and data dependency preserving. Such a
principled approach decouples multiple seemingly intertwined factors and
enables the composition of highly flexible parallelization plans. As a result,
SuperScaler can not only generate empirical parallelization plans, but also
construct new plans that achieve up to 3.5X speedup compared to
state-of-the-art solutions like DeepSpeed, Megatron and Alpa, for emerging DNN
models like Swin-Transformer and AlphaFold2, as well as well-optimized models
like GPT-3.
- Abstract(参考訳): モデルのサイズが大きくなるにつれて、ディープニューラルネットワーク(DNN)は、大規模なGPUアクセラレーションによってトレーニングされるようになり、DNNモデルをきめ細かなタスクに変換し、実行のためにGPUにスケジュールする適切な並列化計画が求められている。
大規模な探索空間のため、現代の並列化計画生成装置は、変換とスケジューリングを結合する経験則に頼り、より柔軟なスケジュールを探り、より優れたメモリ使用率と計算効率をもたらす。
この緊張は、その構造とモデルサイズが複雑化する新興モデルによって悪化する可能性がある。
SuperScalerは、高度に柔軟な並列化計画の設計と生成を容易にするシステムである。
計画設計と生成を、モデル変換、時空間スケジューリング、データ依存保存という3つの逐次フェーズに明示的に定式化します。
このような原理的なアプローチは、複数の相反する要因を分離し、高度に柔軟な並列化計画の構成を可能にする。
その結果、SuperScalerは経験的な並列化計画を生成するだけでなく、Swin-TransformerやAlphaFold2といった新しいDNNモデルのためのDeepSpeed、Megatron、Alpaのような最先端ソリューションや、GPT-3のような最適化されたモデルと比較して3.5倍のスピードアップを達成する新しいプランを構築することができる。
関連論文リスト
- ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Galvatron: Efficient Transformer Training over Multiple GPUs Using
Automatic Parallelism [25.928940638269534]
我々は、最も効率的なハイブリッド並列化戦略を自動的に見つけるフレームワークであるGalvatronを提案する。
Galvatronは常に、並列性に制限のある以前の作業と比べて、優れたシステムスループットを実現している。
論文 参考訳(メタデータ) (2022-11-25T03:45:31Z) - On Optimizing the Communication of Model Parallelism [79.33873698640662]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed
Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。
Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。
特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文 参考訳(メタデータ) (2022-01-28T10:13:35Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Automatic Graph Partitioning for Very Large-scale Deep Learning [4.472135966077758]
本研究では,自動ハイブリッド並列処理のためのRaNNC(Rapid Neural Network Connector)を提案する。
RaNNCは自動的にモデルをサブコンポーネントのセットに分割し、各サブコンポーネントがデバイスメモリに適合するようにします。
RaNNCはMegatron-LMよりも5倍大きなモデルのトレーニングに成功し、RaNNCのトレーニングスループットは、同じモデルを事前トレーニングする際にMegatron-LMに匹敵するものでした。
論文 参考訳(メタデータ) (2021-03-30T04:26:04Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism [3.4377970608678314]
大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
論文 参考訳(メタデータ) (2020-07-25T05:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。