論文の概要: Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training
- arxiv url: http://arxiv.org/abs/2110.14883v1
- Date: Thu, 28 Oct 2021 04:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 13:43:45.671513
- Title: Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training
- Title(参考訳): Colossal-AI:大規模並列トレーニングのための統合型ディープラーニングシステム
- Authors: Zhengda Bian and Hongxin Liu and Boxiang Wang and Haichen Huang and
Yongbin Li and Chuanrui Wang and Fan Cui and Yang You
- Abstract要約: Colossal-AIは並列化の異なるパラダイムをシームレスに統合するために設計された並列訓練システムである。
Colossal-AIは、AIコミュニティが分散モデルを書くのをサポートすることを目的としている。
- 参考スコア(独自算出の注目度): 7.795965853634417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has improved the performance of deep learning
models in domains such as Computer Vision and Natural Language Processing.
Together with better performance come larger model sizes. This imposes
challenges to the memory wall of the current accelerator hardware such as GPU.
It is never ideal to train large models such as Vision Transformer, BERT, and
GPT on a single GPU or a single machine. There is an urgent demand to train
models in a distributed environment. However, distributed training, especially
model parallelism, often requires domain expertise in computer systems and
architecture. It remains a challenge for AI researchers to implement complex
distributed training solutions for their models.
In this paper, we introduce Colossal-AI, which is a unified parallel training
system designed to seamlessly integrate different paradigms of parallelization
techniques including data parallelism, pipeline parallelism, multiple tensor
parallelism, and sequence parallelism. Colossal-AI aims to support the AI
community to write distributed models in the same way as how they write models
normally. This allows them to focus on developing the model architecture and
separates the concerns of distributed training from the development process.
The documentations can be found at https://www.colossalai.org and the source
code can be found at https://github.com/hpcaitech/ColossalAI.
- Abstract(参考訳): Transformerアーキテクチャは、コンピュータビジョンや自然言語処理といった分野におけるディープラーニングモデルの性能を改善した。
パフォーマンスの向上とともに、モデルサイズも大きくなる。
これにより、GPUのような現在のアクセラレータハードウェアのメモリウォールに課題が生じる。
ビジョントランスフォーマー、BERT、GPTのような大型モデルを1つのGPUや1台のマシンでトレーニングすることは決して理想的ではない。
分散環境でモデルをトレーニングする緊急の需要があります。
しかしながら、分散トレーニング、特にモデル並列性は、しばしばコンピュータシステムやアーキテクチャの専門知識を必要とする。
AI研究者にとって、モデルに複雑な分散トレーニングソリューションを実装することは依然として課題である。
本稿では,データ並列性,パイプライン並列性,多重テンソル並列性,シーケンス並列性など,並列化手法の異なるパラダイムをシームレスに統合する並列学習システムであるColossal-AIを紹介する。
Colossal-AIは、AIコミュニティが分散モデルを書くのをサポートすることを目的としている。
これにより、モデルアーキテクチャの開発に集中でき、分散トレーニングの関心事を開発プロセスから切り離すことができる。
ドキュメンテーションはhttps://www.colossalai.orgで、ソースコードはhttps://github.com/hpcaitech/ColossalAIで見ることができる。
関連論文リスト
- Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism [3.4377970608678314]
大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
論文 参考訳(メタデータ) (2020-07-25T05:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。