Fugu-MT 論文翻訳(概要): Elixir: Train a Large Language Model on a Small GPU Cluster

論文の概要: Elixir: Train a Large Language Model on a Small GPU Cluster

arxiv url: http://arxiv.org/abs/2212.05339v3
Date: Wed, 31 May 2023 13:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 03:50:23.609898
Title: Elixir: Train a Large Language Model on a Small GPU Cluster
Title（参考訳）: elixir: 小さなgpuクラスタで大規模な言語モデルをトレーニングする
Authors: Haichen Huang and Jiarui Fang and Hongxin Liu and Shenggui Li and Yang You
Abstract要約: 大規模な言語モデルは前例のない規模で大きな成功を収めた。 Elixirは、実行前のモデルプロファイリングに基づいて、効率的な大規模モデルのトレーニングを自動化する。 Elixirは現在の最先端のベースラインを大きく上回っている。
参考スコア（独自算出の注目度）: 6.578131399847817
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, large language models have achieved great success due to their unprecedented size. However, training these models poses a challenge for most researchers as it requires a substantial number of GPUs. To reduce GPU memory usage, memory partitioning, and memory offloading have been proposed. These approaches eliminate memory redundancies and offload memory usage to the CPU and NVMe memory, respectively, enabling training on small GPU clusters. However, directly deploying these solutions often leads to suboptimal efficiency. Only experienced experts can unleash the full potential of hardware by carefully tuning the distributed configuration. Thus, we present a novel solution, Elixir, which automates efficient large-model training based on pre-runtime model profiling. Elixir aims to identify the optimal combination of partitioning and offloading techniques to maximize training throughput. In our experiments, Elixir significantly outperforms the current state-of-the-art baseline. Our optimal configuration achieves up to a 3.4$\times$ speedup on GPT-2 models compared with SOTA solutions. We hope that our work will benefit individuals who lack computing resources and expertise, granting them access to large models. The beta version of Elixir is now available at https://github.com/hpcaitech/ColossalAI/tree/feature/elixir.
Abstract（参考訳）: 近年では、前例のない大きさで大きな言語モデルが大きな成功を収めている。しかし、これらのモデルのトレーニングは多くのGPUを必要とするため、ほとんどの研究者にとって課題となる。 GPUメモリ使用量を削減するため、メモリパーティショニング、メモリオフロードが提案されている。これらのアプローチは、メモリ冗長性を排除し、cpuとnvmeメモリへのメモリ使用量をオフロードし、小さなgpuクラスタでのトレーニングを可能にする。しかし、これらのソリューションを直接デプロイすることは、しばしば最適でない効率をもたらす。経験豊富な専門家だけが、分散構成を慎重に調整することで、ハードウェアの可能性を完全に解き放つことができる。そこで本研究では,事前実行時のモデルプロファイリングに基づく効率的な大規模モデルのトレーニングを自動化するelixirを提案する。 Elixirは、トレーニングスループットを最大化するために、パーティショニングとオフロードのテクニックの最適な組み合わせを特定することを目指している。我々の実験では、Elixirは現在の最先端のベースラインを大きく上回っている。我々の最適構成は、SOTAソリューションと比較してGPT-2モデルの最大3.4$\times$スピードアップを達成する。私たちの仕事は、コンピューティングリソースと専門知識が不足している個人に利益をもたらし、大きなモデルにアクセスできることを期待しています。 Elixirのベータ版はhttps://github.com/hpcaitech/ColossalAI/tree/feature/elixirで公開されている。

関連論文リスト

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文参考訳（メタデータ） (2022-12-28T18:59:28Z)
An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文参考訳（メタデータ） (2022-09-13T14:13:06Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。 PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。 PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文参考訳（メタデータ） (2021-08-12T15:58:12Z)
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。 1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文参考訳（メタデータ） (2021-04-16T02:22:12Z)
Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文参考訳（メタデータ） (2021-04-09T16:43:11Z)
ZeRO-Offload: Democratizing Billion-Scale Model Training [16.43347399073034]
ZeRO-Offloadは、データと計算をCPUにオフロードすることで、大規模なモデルトレーニングを可能にする。単一のGPU上で13億以上のパラメータを持つモデルをトレーニングでき、PyTorchのような一般的なフレームワークと比較して10倍のサイズになる。
論文参考訳（メタデータ） (2021-01-18T02:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。