論文の概要: PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training
- arxiv url: http://arxiv.org/abs/2410.07192v1
- Date: Mon, 23 Sep 2024 22:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 21:37:02.388829
- Title: PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training
- Title(参考訳): PipeFill:パイプライン並列LDMトレーニングにおけるバブル中のGPUの使用
- Authors: Daiyaan Arfeen, Zhen Zhang, Xinwei Fu, Gregory R. Ganger, Yida Wang,
- Abstract要約: PipeFillは、他の保留中のジョブの実行でパイプラインバブルを埋める。
大規模なLLMトレーニングで使用されるGPUでは,PipeFillが全体の利用率を最大63%向上させることができる。
- 参考スコア(独自算出の注目度): 8.637147484753948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Deep Neural Networks (DNNs) with billions of parameters generally involves pipeline-parallel (PP) execution. Unfortunately, PP model training can use GPUs inefficiently, especially at large scale, due to idle GPU time caused by pipeline bubbles, which are often 15-30% and can exceed 60% of the training job's GPU allocation. To improve the GPU utilization of PP model training, this paper describes PipeFill, which fills pipeline bubbles with execution of other pending jobs. By leveraging bubble GPU time, PipeFill reduces the GPU utilization sacrifice associated with scaling-up of large-model training. To context-switch between fill jobs and the main training job with minimal overhead to the main job, and maximize fill job efficiency, PipeFill carefully fits fill job work to measured bubble durations and GPU memory availability, introduces explicit pipeline-bubble instructions, and orchestrates placement and execution of fill jobs in pipeline bubbles. Experiments show that PipeFill can increase overall utilization by up to 63% for GPUs used in large-scale LLM training, with <2% slowdown of the training job, and 5-15% even for low-scale LLM training. For large-scale LLM training on 8K GPUs, the 63% increase translates to up to 2.6K additional GPUs worth of work completed.
- Abstract(参考訳): 数十億のパラメータを持つディープニューラルネットワーク(DNN)のトレーニングは通常、パイプライン並列(PP)実行を伴う。
残念ながら、PPモデルトレーニングは、パイプラインバブルによって生じるアイドルGPU時間によって、特に大規模でGPUを非効率に使用することができる。
PPモデルトレーニングのGPU利用を改善するために,パイプラインバブルを他の保留ジョブの実行で埋めるPipeFillについて述べる。
バブルGPU時間を活用することで、PipeFillは、大規模なモデルのトレーニングのスケールアップに伴うGPU利用の犠牲を削減する。
ジョブとメイントレーニングジョブのコンテキストスイッチをメインジョブに最小限のオーバーヘッドで実行し、ジョブの効率を最大化するために、PipeFillは、ジョブジョブをバブル期間とGPUメモリの可用性の測定に慎重に適合させ、明示的なパイプラインバブル命令を導入し、パイプラインバブル内のジョブの配置と実行をオーケストレーションする。
実験により、PipeFillは、大規模なLLMトレーニングで使用するGPUの63%、トレーニングジョブの2%が遅くなり、低スケールのLLMトレーニングでも5-15%まで、全体の使用率を最大で63%向上させることができることが示された。
8K GPU上での大規模LLMトレーニングでは、63%の増加で2.6K追加のGPUが完成する。
関連論文リスト
- Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。
GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。
その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-19T08:09:18Z) - Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。
Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文 参考訳(メタデータ) (2024-09-23T11:07:57Z) - FreeRide: Harvesting Bubbles in Pipeline Parallelism [5.7868651201471994]
パイプライン並列性におけるバブルは、大規模言語モデル(LLM)のトレーニング時間の40%以上を占める。
サイドタスクのためのパイプライン並列処理でバブルを抽出するシステムであるFreeRideを提案する。
FreeRideは平均で7.8%のコスト削減を実現している。
論文 参考訳(メタデータ) (2024-09-11T01:46:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Breadth-First Pipeline Parallelism [0.0]
Breadth-First Pipeline並列処理は、トレーニング時間、コスト、メモリ使用量を削減する。
高いGPU利用率とGPU当たりのバッチサイズを組み合わせ、完全にシャーディングされたデータ並列性を活用する。
論文 参考訳(メタデータ) (2022-11-11T02:00:32Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Concurrent Adversarial Learning for Large-Batch Training [83.55868483681748]
逆学習は、決定面を滑らかにし、平坦な領域に偏りを付けるための自然な選択である。
本稿では,安定パラメータを用いて,逐次勾配計算を分離するConcurrent Adversarial Learning(ConAdv)手法を提案する。
これは、ResNet-50トレーニングバッチサイズを96Kにスケールする最初の作業である。
論文 参考訳(メタデータ) (2021-06-01T04:26:02Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。