論文の概要: Elixir: Train a Large Language Model on a Small GPU Cluster
- arxiv url: http://arxiv.org/abs/2212.05339v1
- Date: Sat, 10 Dec 2022 17:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:44:36.176044
- Title: Elixir: Train a Large Language Model on a Small GPU Cluster
- Title(参考訳): elixir: 小さなgpuクラスタで大規模な言語モデルをトレーニングする
- Authors: Haichen Huang and Jiarui Fang and Hongxin Liu and Shenggui Li and Yang
You
- Abstract要約: 既存の異種系は、モデル全体のスコープにおける並列化計画に基づいている。
Elixirは、効率と柔軟性のために設計された新しい並列異種訓練システムである。
- 参考スコア(独自算出の注目度): 6.578131399847817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the number of parameters of one deep learning (DL) model has
been growing much faster than the growth of GPU memory space. People who are
inaccessible to a large number of GPUs resort to heterogeneous training systems
for storing model parameters in CPU memory. Existing heterogeneous systems are
based on parallelization plans in the scope of the whole model. They apply a
consistent parallel training method for all the operators in the computation.
Therefore, engineers need to pay a huge effort to incorporate a new type of
model parallelism and patch its compatibility with other parallelisms. For
example, Mixture-of-Experts (MoE) is still incompatible with ZeRO-3 in
Deepspeed. Also, current systems face efficiency problems on small scale, since
they are designed and tuned for large-scale training. In this paper, we propose
Elixir, a new parallel heterogeneous training system, which is designed for
efficiency and flexibility. Elixir utilizes memory resources and computing
resources of both GPU and CPU. For flexibility, Elixir generates
parallelization plans in the granularity of operators. Any new type of model
parallelism can be incorporated by assigning a parallel pattern to the
operator. For efficiency, Elixir implements a hierarchical distributed memory
management scheme to accelerate inter-GPU communications and CPU-GPU data
transmissions. As a result, Elixir can train a 30B OPT model on an A100 with
40GB CUDA memory, meanwhile reaching 84% efficiency of Pytorch GPU training.
With its super-linear scalability, the training efficiency becomes the same as
Pytorch GPU training on multiple GPUs. Also, large MoE models can be trained
5.3x faster than dense models of the same size. Now Elixir is integrated into
ColossalAI and is available on its main branch.
- Abstract(参考訳): 近年,1つのディープラーニング(DL)モデルのパラメータの数は,GPUメモリ空間の成長よりもはるかに速く成長している。
多数のGPUにアクセスできない人は、CPUメモリにモデルパラメータを格納するための異種トレーニングシステムを利用する。
既存の異種系は、モデル全体のスコープにおける並列化計画に基づいている。
計算におけるすべての演算子に対して一貫した並列トレーニング手法を適用する。
したがって、新しいタイプのモデル並列性を導入し、他の並列性との互換性にパッチを当てるために、エンジニアは多大な努力を払う必要がある。
例えば、Mixture-of-Experts (MoE)はDeepspeedのZeRO-3と互換性がない。
また、現在のシステムは大規模トレーニング用に設計・調整されているため、小規模で効率上の問題に直面している。
本稿では,効率と柔軟性を念頭に設計された新しい並列異種学習システムelixirを提案する。
elixirはgpuとcpuの両方のメモリリソースと計算リソースを利用する。
柔軟性のために、Elixirは演算子の粒度の並列化計画を生成する。
新しいタイプのモデル並列処理は、演算子に並列パターンを割り当てることで組み込むことができる。
効率を上げるために、Elixirは階層的な分散メモリ管理スキームを実装し、GPU間通信とCPU-GPUデータ転送を高速化する。
その結果、Elixirは40GBのCUDAメモリを備えたA100上で30BのOPTモデルをトレーニングでき、Pytorch GPUトレーニングの効率は84%に達した。
超線形スケーラビリティにより、トレーニング効率は複数のgpu上のpytorch gpuトレーニングと同じになる。
また、大きなmoeモデルは、同じサイズの高密度モデルよりも5.3倍高速に訓練できる。
現在、ElixirはColossalAIに統合されており、メインブランチで利用できる。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文 参考訳(メタデータ) (2021-08-12T15:58:12Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。