論文の概要: A Few GPUs, A Whole Lotta Scale: Faithful LLM Training Emulation with PrismLLM
- arxiv url: http://arxiv.org/abs/2605.15617v1
- Date: Fri, 15 May 2026 04:58:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.174975
- Title: A Few GPUs, A Whole Lotta Scale: Faithful LLM Training Emulation with PrismLLM
- Title(参考訳): 数GPUと全ロッタスケール:PrismLLMを用いたFithful LLMトレーニングエミュレーション
- Authors: Shaoke Xi, ChonLam Lao, Boyi Jia, Jiaqi Gao, Zhipeng Zhang, Jiamin Cao, Brian Sutioso, Erci Xu, Minlan Yu, Kui Ren, Yong Li, Zhengping Qian, Ennan Zhai, Jingren Zhou,
- Abstract要約: PrismLLMは大規模なクラスタにアクセスする必要から大規模な実行を分離する。
大規模LLMトレーニングワークロードの実験は、PrismLLMがパフォーマンスとメモリの挙動を正確に再現していることを示している。
- 参考スコア(独自算出の注目度): 47.09947710347623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) training today runs on clusters spanning thousands of GPUs. While this scale enables rapid model advances, developing, debugging, and performance-tuning the training framework inevitably becomes complex and costly. This is because engineers often need to reproduce production behaviors to diagnose failures or evaluate optimizations, thereby demanding frequent and even exclusive access to production-scale clusters -- which becomes increasingly hard given that the majority of GPUs are already committed to production workloads. Simulation relies on complex performance models that are difficult to maintain, and downscaled experiments often fail to capture scale-dependent behaviors. We present PrismLLM to decouple large-scale execution from the need to access large clusters, enabling engineers to run and observe ranks of interest under faithful large-scale behavior using only a few GPUs. PrismLLM constructs a high-fidelity execution graph via a slicing-based approach that captures computation, communication, and dependencies of the target scale. Then, PrismLLM performs hybrid emulation where selected ranks execute the original program while the remaining ranks are replayed as virtual participants. Experiments on large-scale LLM training workloads show that PrismLLM accurately reproduces performance and memory behavior, achieving only 0.58\% average error in iteration time and less than 0.01\% error in peak GPU memory usage. PrismLLM can emulate clusters of up to 8192 GPUs using fewer than 1\% of the physical GPUs required by the original deployment.
- Abstract(参考訳): 現在、大規模な言語モデル(LLM)トレーニングは、数千のGPUにまたがるクラスタ上で動作する。
このスケールは、迅速なモデル開発、開発、デバッグ、パフォーマンスチューニングを可能にするが、トレーニングフレームワークは必然的に複雑でコストがかかる。
これは、エンジニアが障害の診断や最適化評価のためにプロダクションの動作を再現する必要がしばしばあるため、プロダクションスケールのクラスタへの頻繁で排他的なアクセスが要求されるためである。
シミュレーションはメンテナンスが難しい複雑なパフォーマンスモデルに依存しており、ダウンスケールの実験はスケール依存の振る舞いを捉えるのに失敗することが多い。
我々はPrismLLMを提案し、大規模なクラスタにアクセスする必要性から大規模な実行を分離し、少数のGPUを使用して、忠実な大規模動作の下でエンジニアが興味ある位置を走らせ、観察することを可能にする。
PrismLLMは、ターゲットスケールの計算、通信、依存関係をキャプチャするスライシングベースのアプローチを通じて、高忠実度実行グラフを構築する。
次に、PrismLLMは、選択されたランクが元のプログラムを実行し、残りのランクが仮想参加者として再生されるハイブリッドエミュレーションを実行する。
大規模なLLMトレーニングワークロードの実験では、PrismLLMはパフォーマンスとメモリの挙動を正確に再現し、イテレーション時間の平均エラーは0.58\%、ピークGPUメモリ使用時のエラーは0.01\%である。
PrismLLMは、8192GPUのクラスタをエミュレートすることができる。
関連論文リスト
- Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving [2.6336040306318274]
LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。
LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。
本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-27T14:22:51Z) - Horizon-LM: A RAM-Centric Architecture for LLM Training [26.927410607740025]
Horizon-LMは、大規模なモデル最適化のためにCPUとGPUの役割を再定義するメモリ中心のトレーニングシステムである。
1.5,TBのホストRAMを持つ1つのH200 GPU上で、Horizon-LMは120Bパラメータまでのモデルを確実にトレーニングする。
標準的なシングルA100マシンでは、Horizon-LMはCPUオフロードのDeepSpeed ZeRO-3よりも最大12.2$timesのトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2026-02-04T18:04:46Z) - Performance of Small Language Model Pretraining on FABRIC: An Empirical Study [2.2070336216767763]
本研究では,学習者が無償で試用できる実験台上での小型LLMの事前学習技術の性能について検討する。
我々は,GPT-2ミディアムモデルと大規模モデルを使用し,オープンソースパッケージであるAlpaとRayを用いて事前訓練を行った。
我々は,GPUが地理的に分散された場合,演算子内並列性と演算子間並列性を一括最適化したAlpaの実行計画が,常に最善を尽くしたことを観察した。
論文 参考訳(メタデータ) (2026-02-02T17:58:47Z) - Efficient Fine-Grained GPU Performance Modeling for Distributed Deep Learning of LLM [11.87842612818933]
大規模言語モデル(LLM)の訓練は、高性能コンピューティングにおける最も計算集約的なタスクの1つである。
我々は、数百のGPUに分散したマルチビリオンパラメータモデルのエンドツーエンドトレーニング時間を予測するためのフレームワークを提案する。
われわれのフレームワークは、Perlmutter(A100)で4.98%、Vista(GH200)で9.38%の低平均予測誤差を128GPUで20Bパラメータまで達成している。
論文 参考訳(メタデータ) (2025-09-26T18:38:25Z) - Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。