論文の概要: SuperOffload: Unleashing the Power of Large-Scale LLM Training on Superchips
- arxiv url: http://arxiv.org/abs/2509.21271v1
- Date: Thu, 25 Sep 2025 15:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.009167
- Title: SuperOffload: Unleashing the Power of Large-Scale LLM Training on Superchips
- Title(参考訳): SuperOffload:スーパーチップ上での大規模LLMトレーニングのパワーを解放する
- Authors: Xinyu Lian, Masahiro Tanaka, Olatunji Ruwase, Minjia Zhang,
- Abstract要約: Superchipsは、GPUとCPUを同じパッケージに統合する、密結合のヘテロジニアスアーキテクチャを採用している。
Hopper GPU, Grace CPU, NVLink-C2Cを併用したスーパーチップ中心のオフロードシステムであるSuperOffloadを提案する。
NVIDIA GH200上でのSuperOffloadの評価は、最先端のオフロードベースシステムと比較して最大2.5倍のスループット向上を示す。
- 参考スコア(独自算出の注目度): 14.60209313003581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Superchips represents a significant advancement in next-generation AI hardware. These Superchips employ a tightly coupled heterogeneous architecture that integrates GPU and CPU on the same package, which offers unprecedented computational power. However, there has been scant research investigating how LLM training benefits from this new architecture. In this work, for the first time, we study LLM training solutions based on offloading for Superchips. We observe important differences between Superchips and traditional loosely-coupled GPU-CPU architecture, which necessitate revisiting prevailing assumptions about offloading. Based on that, we present SuperOffload, a Superchip-centric offloading system that simultaneously uses Hopper GPU, Grace CPU, and NVLink-C2C interconnect more efficiently. SuperOffload accomplishes this via a combination of techniques, such as adaptive weight offloading, bucketization repartitioning, Superchip-aware casting, speculative execution, and a highly optimized Adam optimizer for Grace CPUs. Our evaluation of SuperOffload on NVIDIA GH200 demonstrates up to 2.5x throughput improvement compared to state-of-the-art offloading-based systems, enabling training of up to 25B model on a single Superchip while achieving high training throughput. We also extend SuperOffload with ZeRO-style data parallelism and DeepSpeed-Ulysses sequence parallelism, enabling training of 13B model with sequence lengths up to 1 million tokens on 8 GH200 while achieving 55% MFU.
- Abstract(参考訳): Superchipsの出現は、次世代AIハードウェアの大幅な進歩を示している。
これらのスーパーチップは、GPUとCPUを同じパッケージに統合する密結合したヘテロジニアスアーキテクチャを採用しており、前例のない計算能力を提供している。
しかし、LLMのトレーニングがこの新しいアーキテクチャからどのような恩恵を受けるかは、調査されていない。
本研究では,スーパーチップのオフロードに基づくLCMトレーニングソリューションを初めて検討する。
オフロードに関する一般的な仮定を再考する必要のある,従来の疎結合GPU-CPUアーキテクチャとSuperchipsの重要な違いを観察した。
そこで我々は, Hopper GPU, Grace CPU, NVLink-C2Cを併用したスーパーチップ中心のオフロードシステムであるSuperOffloadを提案する。
SuperOffloadは、アダプティブウェイトオフロード、バケット化リパーティショニング、Superchip対応キャスティング、投機的実行、Grace CPU用の高度に最適化されたAdamオプティマイザといったテクニックを組み合わせてこれを実現している。
NVIDIA GH200上でのSuperOffloadの評価は、最先端のオフロードベースシステムと比較して最大2.5倍のスループット向上を示し、単一のSuperchip上で最大25Bモデルのトレーニングを可能にしながら、高いトレーニングスループットを実現している。
また、ZeROスタイルのデータ並列処理とDeepSpeed-Ulyssesシーケンス並列処理によりSuperOffloadを拡張し、最大100万トークンのシーケンス長を持つ13Bモデルのトレーニングを8GH200上で可能とし、55%のMFUを実現した。
関連論文リスト
- X-MoE: Enabling Scalable Training for Emerging Mixture-of-Experts Architectures on HPC Platforms [15.572112199097132]
我々は,次世代MoEアーキテクチャのスケーラブルなトレーニング性能を実現するために設計された,新しいMoEトレーニングシステムであるX-MoEを紹介する。
X-MoEは、クロスプラットフォームカーネルによる効率的なパディングフリーなMoEトレーニング、冗長性バイパスディスパッチ、シーケンスシャーディングされたMoEブロックによるハイブリッド並列化など、いくつかの新しい手法によってこれを達成している。
論文 参考訳(メタデータ) (2025-08-18T19:49:28Z) - Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures [3.2645124275315163]
大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。
本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システムにおける推論挙動の詳細な解析を行う。
論文 参考訳(メタデータ) (2025-04-16T04:02:39Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - JUWELS Booster -- A Supercomputer for Large-Scale AI Research [79.02246047353273]
本稿では、最近J'ulich Supercomputing Centerに委託された高性能コンピューティングシステムであるJUWELS Boosterを紹介する。
システムアーキテクチャ、並列性、分散モデルトレーニング、その優れたパフォーマンスを示すベンチマークについて詳述する。
論文 参考訳(メタデータ) (2021-06-30T21:37:02Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z) - Training Large Neural Networks with Constant Memory using a New
Execution Algorithm [0.5424799109837065]
L2L (layer-to-layer) と呼ばれる新しいリレー式実行手法を提案する。
L2Lは、単一の16GB V100と512GBのCPUメモリを持つマシンに最大500億のパラメータを適合させることができる。
論文 参考訳(メタデータ) (2020-02-13T17:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。