論文の概要: MLP-Offload: Multi-Level, Multi-Path Offloading for LLM Pre-training to Break the GPU Memory Wall
- arxiv url: http://arxiv.org/abs/2509.02480v1
- Date: Tue, 02 Sep 2025 16:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.104747
- Title: MLP-Offload: Multi-Level, Multi-Path Offloading for LLM Pre-training to Break the GPU Memory Wall
- Title(参考訳): MLP-Offload:GPUメモリウォールを壊すためのLLM事前トレーニングのためのマルチレベルマルチパスオフロード
- Authors: Avinash Maurya, M. Mustafa Rafique, Franck Cappello, Bogdan Nicolae,
- Abstract要約: 本稿では,資源制約のあるセットアップ上でのLLMトレーニングを最適化するための,新しいマルチレベルマルチパスオフロードエンジンを提案する。
更新時のI/Oオーバーヘッドなど、イテレーションオフロードの設計を駆動する重要な観測をいくつか行います。
iteration-Offloadは、最先端のトレーニングランタイムと比較して2.5$times$高速であることを示す。
- 参考スコア(独自算出の注目度): 2.3041368958484596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training LLMs larger than the aggregated memory of multiple GPUs is increasingly necessary due to the faster growth of LLM sizes compared to GPU memory. To this end, multi-tier host memory or disk offloading techniques are proposed by state of art. Despite advanced asynchronous multi-tier read/write strategies, such offloading strategies result in significant I/O overheads in the critical path of training, resulting in slower iterations. To this end, we propose MLP-Offload, a novel multi-level, multi-path offloading engine specifically designed for optimizing LLM training on resource-constrained setups by mitigating I/O bottlenecks. We make several key observations that drive the design of MLP-Offload, such as I/O overheads during the update dominate the iteration time; I/O bandwidth of the third-level remote storage tier remains unutilized; and, contention due to concurrent offloading amplifies I/O bottlenecks. Driven by these insights, we design and implement MLP-Offload to offload the optimizer states across multiple tiers in a cache-efficient and concurrency-controlled fashion to mitigate I/O bottlenecks during the backward and update phases. Evaluations on models up to 280B parameters shows that MLP-Offload achieves 2.5$\times$ faster iterations compared to the state-of-the-art LLM training runtimes.
- Abstract(参考訳): 複数のGPUの集約メモリより大きいLLMのトレーニングは、GPUメモリと比較してLLMサイズが速く成長するため、ますます必要になる。
この目的のために,多層ホストメモリやディスクオフロード技術が最先端技術によって提案されている。
高度な非同期多層読み込み/書き込み戦略にもかかわらず、そのようなオフロード戦略はトレーニングのクリティカルパスにおいて大きなI/Oオーバーヘッドをもたらし、イテレーションが遅くなる。
この目的のために,資源制約のあるセットアップにおけるLLMトレーニングの最適化を目的とした,新たなマルチレベルマルチパスオフロードエンジンであるMLP-Offloadを提案する。
更新時のI/Oオーバーヘッドがイテレーション時間を支配すること,第3レベルのリモートストレージ層のI/O帯域幅が未利用であること,同時オフロードによる競合がI/Oボトルネックを増幅すること,など,MLP-Offloadの設計を駆動する重要な観測を行う。
これらの知見に基づいて、キャッシュ効率と並行性制御の方法で最適化状態のオフロードを設計、実装し、後方および更新フェーズにおけるI/Oボトルネックを軽減する。
MLP-Offloadが2.5$\times$高速なイテレーションを達成していることが、280Bパラメータまでのモデルで評価されている。
関連論文リスト
- Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - eDKM: An Efficient and Accurate Train-time Weight Clustering for Large
Language Models [19.502740996431452]
微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示している。
メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。
論文 参考訳(メタデータ) (2023-09-02T15:16:35Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。