Fugu-MT 論文翻訳(概要): Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage

論文の概要: Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage

arxiv url: http://arxiv.org/abs/2506.06472v1
Date: Fri, 06 Jun 2025 18:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.285246
Title: Cost-Efficient LLM Training with Lifetime-Aware Tensor Offloading via GPUDirect Storage
Title（参考訳）: GPUDirectストレージによるリアルタイムテンソルオフロードによる低コストLDMトレーニング
Authors: Ziqi Yuan, Haoyang Zhang, Yirui Eric Zhou, Apoorve Mohan, I-Hsin Chung, Seetharami Seelam, Jian Huang,
Abstract要約: TERAIOは低コストPCIeベースのソリッドステートドライブ(SSD)を用いたGPUメモリ拡張のためのフレームワークその設計は、各大規模言語反復訓練プロセスにおいて、アクティブテンソルが割り当てられたGPUメモリのごく一部(平均1.7%)しか取らないという我々の観察によって進められている。 TERAIO は様々な LLM のトレーニング性能を平均 1.47 倍改善し,理想性能の 80.7% を達成している。
参考スコア（独自算出の注目度）: 9.106167012987747
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present the design and implementation of a new lifetime-aware tensor offloading framework for GPU memory expansion using low-cost PCIe-based solid-state drives (SSDs). Our framework, TERAIO, is developed explicitly for large language model (LLM) training with multiple GPUs and multiple SSDs. Its design is driven by our observation that the active tensors take only a small fraction (1.7% on average) of allocated GPU memory in each LLM training iteration, the inactive tensors are usually large and will not be used for a long period of time, creating ample opportunities for offloading/prefetching tensors to/from slow SSDs without stalling the GPU training process. TERAIO accurately estimates the lifetime (active period of time in GPU memory) of each tensor with the profiling of the first few iterations in the training process. With the tensor lifetime analysis, TERAIO will generate an optimized tensor offloading/prefetching plan and integrate it into the compiled LLM program via PyTorch. TERAIO has a runtime tensor migration engine to execute the offloading/prefetching plan via GPUDirect storage, which allows direct tensor migration between GPUs and SSDs for alleviating the CPU bottleneck and maximizing the SSD bandwidth utilization. In comparison with state-of-the-art studies such as ZeRO-Offload and ZeRO-Infinity, we show that TERAIO improves the training performance of various LLMs by 1.47x on average, and achieves 80.7% of the ideal performance assuming unlimited GPU memory.
Abstract（参考訳）: 我々は、低コストPCIeベースのソリッドステートドライブ(SSD)を用いたGPUメモリ拡張のための、新しいライフタイムアウェアなテンソルオフローディングフレームワークの設計と実装について述べる。我々のフレームワークであるTERAIOは、複数のGPUと複数のSSDを用いた大規模言語モデル(LLM)トレーニングのために明示的に開発されている。その設計は、アクティブテンソルが各LLMトレーニングイテレーションで割り当てられたGPUメモリのごく一部(平均1.7%)しか取らず、通常、アクティブテンソルは大きく、長期間使用されないため、GPUトレーニングプロセスを中断することなく、遅いSSDにテンソルをオフロード/プリフェッチする十分な機会が生じる。 TERAIOはトレーニングプロセスの最初の数回をプロファイリングすることで、各テンソルの寿命(GPUメモリにおけるアクティブな時間)を正確に推定する。テンソル寿命分析により、TERAIOは最適化されたテンソルオフロード/プレフェッチ計画を生成し、PyTorchを介してコンパイルされたLLMプログラムに統合する。 TERAIOは、GPUDirectストレージを介してオフロード/プレフェッチ計画を実行するランタイムテンソルマイグレーションエンジンを備えており、GPUとSSD間の直接テンソルマイグレーションにより、CPUボトルネックを緩和し、SSD帯域幅の利用を最大化することができる。我々は,ZeRO-OffloadやZeRO-Infinityといった最先端の研究と比較して,TERAIOは各種LLMのトレーニング性能を平均1.47倍改善し,GPUメモリを無制限とする理想的な性能の80.7%を達成することを示した。

関連論文リスト

Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
SSDTrain: An Activation Offloading Framework to SSDs for Faster Large Language Model Training [13.283682311968752]
SSDTrainは、高容量GPUメモリにオフロードするアダプティブアクティベーションフレームワークである。 PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性がある。その結果、SSDTrainはアクティベーションピークメモリ使用量の47%を削減した。
論文参考訳（メタデータ） (2024-08-19T14:09:48Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
A Frequency-aware Software Cache for Large Recommendation System Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文参考訳（メタデータ） (2022-08-08T12:08:05Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
TENSILE: A Tensor granularity dynamic GPU memory scheduler method towards multiple dynamic workloads system [9.86589655261934]
TENSILEは、GPUメモリピークを減らすために、テンソル粒度でGPUメモリを管理する方法である。我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。
論文参考訳（メタデータ） (2021-05-27T17:46:16Z)
Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning [7.43260596107574]
我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。 Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。 PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
論文参考訳（メタデータ） (2020-12-04T17:25:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。