論文の概要: Elixir: Train a Large Language Model on a Small GPU Cluster
- arxiv url: http://arxiv.org/abs/2212.05339v3
- Date: Wed, 31 May 2023 13:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:50:23.609898
- Title: Elixir: Train a Large Language Model on a Small GPU Cluster
- Title(参考訳): elixir: 小さなgpuクラスタで大規模な言語モデルをトレーニングする
- Authors: Haichen Huang and Jiarui Fang and Hongxin Liu and Shenggui Li and Yang
You
- Abstract要約: 大規模な言語モデルは前例のない規模で大きな成功を収めた。
Elixirは、実行前のモデルプロファイリングに基づいて、効率的な大規模モデルのトレーニングを自動化する。
Elixirは現在の最先端のベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 6.578131399847817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models have achieved great success due to
their unprecedented size. However, training these models poses a challenge for
most researchers as it requires a substantial number of GPUs. To reduce GPU
memory usage, memory partitioning, and memory offloading have been proposed.
These approaches eliminate memory redundancies and offload memory usage to the
CPU and NVMe memory, respectively, enabling training on small GPU clusters.
However, directly deploying these solutions often leads to suboptimal
efficiency. Only experienced experts can unleash the full potential of hardware
by carefully tuning the distributed configuration. Thus, we present a novel
solution, Elixir, which automates efficient large-model training based on
pre-runtime model profiling. Elixir aims to identify the optimal combination of
partitioning and offloading techniques to maximize training throughput. In our
experiments, Elixir significantly outperforms the current state-of-the-art
baseline. Our optimal configuration achieves up to a 3.4$\times$ speedup on
GPT-2 models compared with SOTA solutions. We hope that our work will benefit
individuals who lack computing resources and expertise, granting them access to
large models. The beta version of Elixir is now available at
https://github.com/hpcaitech/ColossalAI/tree/feature/elixir.
- Abstract(参考訳): 近年では、前例のない大きさで大きな言語モデルが大きな成功を収めている。
しかし、これらのモデルのトレーニングは多くのGPUを必要とするため、ほとんどの研究者にとって課題となる。
GPUメモリ使用量を削減するため、メモリパーティショニング、メモリオフロードが提案されている。
これらのアプローチは、メモリ冗長性を排除し、cpuとnvmeメモリへのメモリ使用量をオフロードし、小さなgpuクラスタでのトレーニングを可能にする。
しかし、これらのソリューションを直接デプロイすることは、しばしば最適でない効率をもたらす。
経験豊富な専門家だけが、分散構成を慎重に調整することで、ハードウェアの可能性を完全に解き放つことができる。
そこで本研究では,事前実行時のモデルプロファイリングに基づく効率的な大規模モデルのトレーニングを自動化するelixirを提案する。
Elixirは、トレーニングスループットを最大化するために、パーティショニングとオフロードのテクニックの最適な組み合わせを特定することを目指している。
我々の実験では、Elixirは現在の最先端のベースラインを大きく上回っている。
我々の最適構成は、SOTAソリューションと比較してGPT-2モデルの最大3.4$\times$スピードアップを達成する。
私たちの仕事は、コンピューティングリソースと専門知識が不足している個人に利益をもたらし、大きなモデルにアクセスできることを期待しています。
Elixirのベータ版はhttps://github.com/hpcaitech/ColossalAI/tree/feature/elixirで公開されている。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文 参考訳(メタデータ) (2021-08-12T15:58:12Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。
単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文 参考訳(メタデータ) (2021-01-18T02:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。