論文の概要: FreeRide: Harvesting Bubbles in Pipeline Parallelism
- arxiv url: http://arxiv.org/abs/2409.06941v1
- Date: Wed, 11 Sep 2024 01:46:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:57:17.721221
- Title: FreeRide: Harvesting Bubbles in Pipeline Parallelism
- Title(参考訳): FreeRide:パイプライン並列処理におけるバブルのハーベスティング
- Authors: Jiashu Zhang, Zihan Pan, Molly, Xu, Khuzaima Daudjee, Sihang Liu,
- Abstract要約: パイプライン並列性におけるバブルは、大規模言語モデル(LLM)のトレーニング時間の40%以上を占める。
サイドタスクのためのパイプライン並列処理でバブルを抽出するシステムであるFreeRideを提案する。
FreeRideは平均で7.8%のコスト削減を実現している。
- 参考スコア(独自算出の注目度): 5.7868651201471994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The occurrence of bubbles in pipeline parallelism is an inherent limitation that can account for more than 40% of the large language model (LLM) training time and is one of the main reasons for the underutilization of GPU resources in LLM training. Harvesting these bubbles for GPU side tasks can increase resource utilization and reduce training costs but comes with challenges. First, because bubbles are discontinuous with various shapes, programming side tasks becomes difficult while requiring excessive engineering effort. Second, a side task can compete with pipeline training for GPU resources and incur significant overhead. To address these challenges, we propose FreeRide, a system designed to harvest bubbles in pipeline parallelism for side tasks. FreeRide provides programmers with interfaces to implement side tasks easily, manages bubbles and side tasks during pipeline training, and controls access to GPU resources by side tasks to reduce overhead. We demonstrate that FreeRide achieves 7.8% average cost savings with a negligible overhead of about 1% in training LLMs while serving model training, graph analytics, and image processing side tasks.
- Abstract(参考訳): パイプライン並列化におけるバブルの発生は,大規模言語モデル(LLM)のトレーニング時間の40%以上を占める,固有の制限であり,LLMトレーニングにおけるGPUリソースの未使用の理由の1つである。
GPUサイドタスクにこれらのバブルを埋め込むことは、リソース使用量を増やし、トレーニングコストを削減できますが、課題があります。
まず、バブルは様々な形状で不連続であるため、過剰なエンジニアリング作業を必要としながらプログラミングサイドタスクは難しくなります。
第二に、サイドタスクはGPUリソースのパイプライントレーニングと競合し、大きなオーバーヘッドを発生させることができる。
これらの課題に対処するために,サイドタスクのためのパイプライン並列処理でバブルを回収するシステムであるFreeRideを提案する。
FreeRideは、サイドタスクを簡単に実装するためのインターフェースを提供し、パイプライントレーニング中にバブルとサイドタスクを管理し、サイドタスクによるGPUリソースへのアクセスを制御し、オーバーヘッドを低減する。
我々は、モデルトレーニング、グラフ分析、画像処理サイドタスクを提供しながら、LLMのトレーニングにおいて、約1%のオーバーヘッドを無視できるオーバーヘッドで、FreeRideが平均で7.8%のコスト削減を達成することを実証した。
関連論文リスト
- PipeFill: Using GPUs During Bubbles in Pipeline-parallel LLM Training [8.637147484753948]
PipeFillは、他の保留中のジョブの実行でパイプラインバブルを埋める。
大規模なLLMトレーニングで使用されるGPUでは,PipeFillが全体の利用率を最大63%向上させることができる。
論文 参考訳(メタデータ) (2024-09-23T22:39:05Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Breadth-First Pipeline Parallelism [0.0]
Breadth-First Pipeline並列処理は、トレーニング時間、コスト、メモリ使用量を削減する。
高いGPU利用率とGPU当たりのバッチサイズを組み合わせ、完全にシャーディングされたデータ並列性を活用する。
論文 参考訳(メタデータ) (2022-11-11T02:00:32Z) - Job Scheduling in Datacenters using Constraint Controlled RL [0.0]
本研究では,グリーンデータセンター環境におけるジョブスケジューリング問題に対して,PID(Proportional-Integral-Derivative)ラグランジアン法を適用した。
実験では、PIDラグランジアン法を使わずにスケジューリングポリシーよりも性能が向上した。
論文 参考訳(メタデータ) (2022-11-10T04:43:14Z) - Online Evolutionary Batch Size Orchestration for Scheduling Deep
Learning Workloads in GPU Clusters [10.395955671683245]
弾力性のあるバッチサイズオーケストレーションのためのオンラインスケジューリングシステムであるONESを提案する。
ONESは、トレーニングバッチサイズに基づいて、各ジョブの弾力性を自動的に管理する。
我々は、ONESが従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で優れていることを示す。
論文 参考訳(メタデータ) (2021-08-08T14:20:05Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - Taskflow: A Lightweight Parallel and Heterogeneous Task Graph Computing
System [12.813275501138193]
Taskflowは、軽量なタスクグラフベースのアプローチを使用して、並列および異種アプリケーションの構築を合理化することを目的としている。
我々のプログラミングモデルは、グラフ内制御フローを伴うタスクグラフ並列性の非常に一般的なクラスとして、自分自身を区別する。
我々は実世界のアプリケーションでTaskflowの有望な性能を実証した。
論文 参考訳(メタデータ) (2020-04-23T00:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。