論文の概要: Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage
- arxiv url: http://arxiv.org/abs/2506.06472v1
- Date: Fri, 06 Jun 2025 18:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.285246
- Title: Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage
- Title(参考訳): GPUDirectストレージによるリアルタイムテンソルオフロードによる低コストLDMトレーニング
- Authors: Ziqi Yuan, Haoyang Zhang, Yirui Eric Zhou, Apoorve Mohan, I-Hsin Chung, Seetharami Seelam, Jian Huang,
- Abstract要約: TERAIOは低コストPCIeベースのソリッドステートドライブ(SSD)を用いたGPUメモリ拡張のためのフレームワーク
その設計は、各大規模言語反復訓練プロセスにおいて、アクティブテンソルが割り当てられたGPUメモリのごく一部(平均1.7%)しか取らないという我々の観察によって進められている。
TERAIO は様々な LLM のトレーニング性能を平均 1.47 倍改善し,理想性能の 80.7% を達成している。
- 参考スコア(独自算出の注目度): 9.106167012987747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the design and implementation of a new lifetime-aware tensor offloading framework for GPU memory expansion using low-cost PCIe-based solid-state drives (SSDs). Our framework, TERAIO, is developed explicitly for large language model (LLM) training with multiple GPUs and multiple SSDs. Its design is driven by our observation that the active tensors take only a small fraction (1.7% on average) of allocated GPU memory in each LLM training iteration, the inactive tensors are usually large and will not be used for a long period of time, creating ample opportunities for offloading/prefetching tensors to/from slow SSDs without stalling the GPU training process. TERAIO accurately estimates the lifetime (active period of time in GPU memory) of each tensor with the profiling of the first few iterations in the training process. With the tensor lifetime analysis, TERAIO will generate an optimized tensor offloading/prefetching plan and integrate it into the compiled LLM program via PyTorch. TERAIO has a runtime tensor migration engine to execute the offloading/prefetching plan via GPUDirect storage, which allows direct tensor migration between GPUs and SSDs for alleviating the CPU bottleneck and maximizing the SSD bandwidth utilization. In comparison with state-of-the-art studies such as ZeRO-Offload and ZeRO-Infinity, we show that TERAIO improves the training performance of various LLMs by 1.47x on average, and achieves 80.7% of the ideal performance assuming unlimited GPU memory.
- Abstract(参考訳): 我々は、低コストPCIeベースのソリッドステートドライブ(SSD)を用いたGPUメモリ拡張のための、新しいライフタイムアウェアなテンソルオフローディングフレームワークの設計と実装について述べる。
我々のフレームワークであるTERAIOは、複数のGPUと複数のSSDを用いた大規模言語モデル(LLM)トレーニングのために明示的に開発されている。
その設計は、アクティブテンソルが各LLMトレーニングイテレーションで割り当てられたGPUメモリのごく一部(平均1.7%)しか取らず、通常、アクティブテンソルは大きく、長期間使用されないため、GPUトレーニングプロセスを中断することなく、遅いSSDにテンソルをオフロード/プリフェッチする十分な機会が生じる。
TERAIOはトレーニングプロセスの最初の数回をプロファイリングすることで、各テンソルの寿命(GPUメモリにおけるアクティブな時間)を正確に推定する。
テンソル寿命分析により、TERAIOは最適化されたテンソルオフロード/プレフェッチ計画を生成し、PyTorchを介してコンパイルされたLLMプログラムに統合する。
TERAIOは、GPUDirectストレージを介してオフロード/プレフェッチ計画を実行するランタイムテンソルマイグレーションエンジンを備えており、GPUとSSD間の直接テンソルマイグレーションにより、CPUボトルネックを緩和し、SSD帯域幅の利用を最大化することができる。
我々は,ZeRO-OffloadやZeRO-Infinityといった最先端の研究と比較して,TERAIOは各種LLMのトレーニング性能を平均1.47倍改善し,GPUメモリを無制限とする理想的な性能の80.7%を達成することを示した。
関連論文リスト
- Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - SSDTrain: An Activation Offloading Framework to SSDs for Faster Large Language Model Training [13.283682311968752]
SSDTrainは、高容量GPUメモリにオフロードするアダプティブアクティベーションフレームワークである。
PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性がある。
その結果、SSDTrainはアクティベーションピークメモリ使用量の47%を削減した。
論文 参考訳(メタデータ) (2024-08-19T14:09:48Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - TENSILE: A Tensor granularity dynamic GPU memory scheduler method
towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。
我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文 参考訳(メタデータ) (2021-05-27T17:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。