論文の概要: Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters
- arxiv url: http://arxiv.org/abs/2405.18093v1
- Date: Tue, 28 May 2024 11:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:48:53.619040
- Title: Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters
- Title(参考訳): Pipette: リアルタイムクラスタのための,きめ細かな大規模言語モデルのトレーニング設定
- Authors: Jinkyu Yim, Jaeyong Song, Yerim Choi, Jaebeen Lee, Jaewon Jung, Hongsun Jang, Jinho Lee,
- Abstract要約: 大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
- 参考スコア(独自算出の注目度): 5.190794062263327
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training large language models (LLMs) is known to be challenging because of the huge computational and memory capacity requirements. To address these issues, it is common to use a cluster of GPUs with 3D parallelism, which splits a model along the data batch, pipeline stage, and intra-layer tensor dimensions. However, the use of 3D parallelism produces the additional challenge of finding the optimal number of ways on each dimension and mapping the split models onto the GPUs. Several previous studies have attempted to automatically find the optimal configuration, but many of these lacked several important aspects. For instance, the heterogeneous nature of the interconnect speeds is often ignored. While the peak bandwidths for the interconnects are usually made equal, the actual attained bandwidth varies per link in real-world clusters. Combined with the critical path modeling that does not properly consider the communication, they easily fall into sub-optimal configurations. In addition, they often fail to consider the memory requirement per GPU, often recommending solutions that could not be executed. To address these challenges, we propose Pipette, which is an automatic fine-grained LLM training configurator for real-world clusters. By devising better performance models along with the memory estimator and fine-grained individual GPU assignment, Pipette achieves faster configurations that satisfy the memory constraints. We evaluated Pipette on large clusters to show that it provides a significant speedup over the prior art. The implementation of Pipette is available at https://github.com/yimjinkyu1/date2024_pipette.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
これらの問題に対処するために、データバッチ、パイプラインステージ、層内テンソル次元に沿ってモデルを分割する3次元並列性を持つGPUのクラスタを使用するのが一般的である。
しかし、3D並列性を用いることで、各次元の最適な方法を見つけ、分割したモデルをGPUにマッピングするという、さらなる課題が生まれる。
以前のいくつかの研究では、最適な構成を自動的に見つけようとしたが、その多くがいくつかの重要な側面を欠いていた。
例えば、相互接続速度の不均一性はしばしば無視される。
通常、相互接続のピーク帯域幅は等しいが、実際の到達帯域幅は実世界のクラスタでリンクごとに異なる。
コミュニケーションを適切に考慮しないクリティカルパスモデリングと組み合わせることで、それらは容易に準最適構成に陥る。
さらに、GPU当たりのメモリ要求を考慮するのに失敗することが多く、実行できないソリューションを推奨することが多い。
これらの課題に対処するために,実世界のクラスタを対象としたLLM自動微粒化トレーニングコンストラクタであるPipetteを提案する。
メモリ推定器とともに優れたパフォーマンスモデルを考案し、個々のGPU割り当てをきめ細かなものにすることで、Pipetteはメモリ制約を満たすより高速な設定を実現する。
大規模クラスタ上でPipetteを評価して,従来よりも大幅に高速化されたことを示す。
Pipetteの実装はhttps://github.com/yimjinkyu1/date2024_pipetteで公開されている。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Efficient Strong Scaling Through Burst Parallel Training [13.656104138147967]
大規模なGPUクラスタを使用して、ディープニューラルネットワーク(DNN)モデルをトレーニングすることが、必須の要件になっています。
この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。
論文 参考訳(メタデータ) (2021-12-19T05:18:39Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - SparsePipe: Parallel Deep Learning for 3D Point Clouds [7.181267620981419]
SparsePipeは、ポイントクラウドなどの3Dスパースデータをサポートする。
入力データを複数のプロセッサに分割するバッチ内並列処理を利用する。
我々は、SparsePipeが効果的に並列化でき、現在のクラウドベンチマークでより良いパフォーマンスを得ることができることを示す。
論文 参考訳(メタデータ) (2020-12-27T01:47:09Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。