論文の概要: MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU
- arxiv url: http://arxiv.org/abs/2604.05091v1
- Date: Mon, 06 Apr 2026 18:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.447842
- Title: MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU
- Title(参考訳): MegaTrain: 単一GPU上での100B以上のパラメータ大言語モデルの完全精度トレーニング
- Authors: Zhengqing Yuan, Hanchi Sun, Lichao Sun, Yanfang Ye,
- Abstract要約: MegaTrainはメモリ中心のシステムで、1つのGPU上で100B以上のパラメータ大言語モデルを効率的にトレーニングする。
従来のGPU中心のシステムとは異なり、MegaTrainはパラメータと状態をホストメモリ(CPUメモリ)に格納し、GPUを過渡計算エンジンとして扱う。
- 参考スコア(独自算出の注目度): 25.228229453758132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MegaTrain, a memory-centric system that efficiently trains 100B+ parameter large language models at full precision on a single GPU. Unlike traditional GPU-centric systems, MegaTrain stores parameters and optimizer states in host memory (CPU memory) and treats GPUs as transient compute engines. For each layer, we stream parameters in and compute gradients out, minimizing persistent device state. To battle the CPU-GPU bandwidth bottleneck, we adopt two key optimizations. 1) We introduce a pipelined double-buffered execution engine that overlaps parameter prefetching, computation, and gradient offloading across multiple CUDA streams, enabling continuous GPU execution. 2) We replace persistent autograd graphs with stateless layer templates, binding weights dynamically as they stream in, eliminating persistent graph metadata while providing flexibility in scheduling. On a single H200 GPU with 1.5TB host memory, MegaTrain reliably trains models up to 120B parameters. It also achieves 1.84$\times$ the training throughput of DeepSpeed ZeRO-3 with CPU offloading when training 14B models. MegaTrain also enables 7B model training with 512k token context on a single GH200.
- Abstract(参考訳): メモリ中心のシステムであるMegaTrainは,1つのGPU上で100B以上のパラメータ大言語モデルを完全精度で効率的に訓練する。
従来のGPU中心のシステムとは異なり、MegaTrainはパラメータとオプティマイザ状態をホストメモリ(CPUメモリ)に格納し、GPUを過渡計算エンジンとして扱う。
各レイヤに対してパラメータをストリームし、勾配を計算し、永続的なデバイス状態を最小化します。
CPU-GPU帯域幅のボトルネックに対処するために、我々は2つの重要な最適化を採用する。
1) 複数のCUDAストリームにまたがるパラメータのプリフェッチ、計算、勾配のオフロードをオーバーラップし、連続的なGPU実行を可能にするパイプライン化された二重バッファ実行エンジンを導入する。
2) 永続的なオートグレードグラフをステートレスなレイヤテンプレートに置き換え、ストリームするにつれて動的に重みをバインディングし、永続的なグラフメタデータを排除し、スケジューリングの柔軟性を提供します。
1.5TBのホストメモリを持つ1つのH200 GPU上で、MegaTrainは最大120Bパラメータのモデルを確実にトレーニングする。
また、14Bモデルのトレーニング時にCPUをオフロードしてDeepSpeed ZeRO-3のトレーニングスループットを1.84$\timesで達成している。
MegaTrainはまた、単一のGH200上で512kトークンコンテキストで7Bモデルトレーニングを可能にする。
関連論文リスト
- Horizon-LM: A RAM-Centric Architecture for LLM Training [26.927410607740025]
Horizon-LMは、大規模なモデル最適化のためにCPUとGPUの役割を再定義するメモリ中心のトレーニングシステムである。
1.5,TBのホストRAMを持つ1つのH200 GPU上で、Horizon-LMは120Bパラメータまでのモデルを確実にトレーニングする。
標準的なシングルA100マシンでは、Horizon-LMはCPUオフロードのDeepSpeed ZeRO-3よりも最大12.2$timesのトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2026-02-04T18:04:46Z) - Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。