論文の概要: Domino: Eliminating Communication in LLM Training via Generic Tensor Slicing and Overlapping
- arxiv url: http://arxiv.org/abs/2409.15241v1
- Date: Mon, 23 Sep 2024 17:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:52:58.720312
- Title: Domino: Eliminating Communication in LLM Training via Generic Tensor Slicing and Overlapping
- Title(参考訳): ドミノ:ジェネリックテンソルスライシングとオーバーラップによるLLMトレーニングにおけるコミュニケーションの排除
- Authors: Guanhua Wang, Chengming Zhang, Zheyu Shen, Ang Li, Olatunji Ruwase,
- Abstract要約: 大規模言語モデル(LLM)を大規模にトレーニングする場合、通信オーバーヘッドがより顕著になる。
計算の背後にある通信を隠蔽する汎用的なスキームであるDominoを提案する。
DominoはNvidia DGX-H100 GPU上でのLLMトレーニングの最大1.3倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 9.598284671473394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given the popularity of generative AI, Large Language Models (LLMs) often consume hundreds or thousands of GPUs for parallelizing and accelerating the training process. Communication overhead becomes more pronounced when training LLMs at scale. To eliminate communication overhead in distributed LLM training, we propose Domino, which provides a generic scheme to hide communication behind computation. By breaking data dependency of a single batch training into smaller independent pieces, Domino pipelines these independent pieces training and provides generic strategy of fine-grained communication and computation overlapping. Extensive results show that, comparing with Megatron-LM, Domino achieves up to 1.3x speedup for LLM training on Nvidia DGX-H100 GPUs.
- Abstract(参考訳): 生成AIの人気を考えると、LLM(Large Language Models)はトレーニングプロセスの並列化と高速化のために、数百から数千のGPUを使用することが多い。
LLMを大規模にトレーニングする場合、通信オーバーヘッドがより顕著になる。
分散LLM学習における通信オーバーヘッドを軽減するため,計算の背後にある通信を隠す汎用的なスキームであるDominoを提案する。
単一のバッチトレーニングのデータの依存関係を小さな独立した部分に分割することで、Dominoはこれらの独立したトレーニングをパイプライン化し、きめ細かい通信と計算オーバーラップのための一般的な戦略を提供する。
Megatron-LMと比較して、DominoはNvidia DGX-H100 GPU上でのLLMトレーニングにおいて最大1.3倍の高速化を実現している。
関連論文リスト
- Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。
GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。
その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-19T08:09:18Z) - ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Efficient Multi-stage Inference on Tabular Data [1.6371451481715193]
従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。
推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。
トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
論文 参考訳(メタデータ) (2023-03-21T04:01:55Z) - MCR-DL: Mix-and-Match Communication Runtime for Deep Learning [9.320429463027686]
大規模なディープラーニングモデルをトレーニングするには、効率を維持するために高度な並列処理戦略が必要である。
我々は,全てのポイント・ツー・ポイントおよび集合操作をサポートするDL通信フレームワークであるMCR-DLを提案する。
MCR-DLには、与えられた入力テンソルの最良の通信バックエンドを動的に選択するためのチューニングスイートが付属している。
論文 参考訳(メタデータ) (2023-03-15T05:23:42Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。