論文の概要: Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective
- arxiv url: http://arxiv.org/abs/2509.10371v1
- Date: Fri, 12 Sep 2025 16:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.153499
- Title: Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective
- Title(参考訳): 分散トレーニングの効率性を特徴づける:パワー,パフォーマンス,熱的視点
- Authors: Seokjin Go, Joongun Park, Spandan More, Hanjiang Wu, Irene Wang, Aaron Jezghani, Tushar Krishna, Divya Mahajan,
- Abstract要約: 大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
- 参考スコア(独自算出の注目度): 6.51239603014107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid scaling of Large Language Models (LLMs) has pushed training workloads far beyond the limits of single-node analysis, demanding a deeper understanding of how these models behave across large-scale, multi-GPU systems. In this paper, we present a comprehensive characterization of LLM training across diverse real-world workloads and hardware platforms, including NVIDIA H100/H200 and AMD MI250 GPUs. We analyze dense and sparse models under various parallelism strategies -- tensor, pipeline, data, and expert -- and evaluate their effects on hardware utilization, power consumption, and thermal behavior. We further evaluate the effectiveness of optimizations such as activation recomputation and compute-communication overlap. Our findings show that performance is not determined solely by scaling hardware capacity. Scale-up systems with fewer, higher-memory GPUs can outperform scale-out systems in communication-bound regimes, but only under carefully tuned configurations; in other cases, scale-out deployments achieve superior throughput. We also show that certain parallelism combinations, such as tensor with pipeline, lead to bandwidth underutilization due to inefficient data chunking, while increasing microbatch sizes beyond a certain point induces bursty execution and peak power excursions that worsen thermal throttling. These insights reveal how training performance is shaped by complex interactions between hardware, system topology, and model execution. We conclude by offering recommendations for system and hardware design to improve the scalability and reliability of future LLM systems and workloads. The source code of this project is available at https://github.com/sitar-lab/CharLLM-PPT.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速なスケーリングにより、トレーニングワークロードは単一ノード分析の限界を超えて、大規模なマルチGPUシステム全体にわたってこれらのモデルがどのように振る舞うかをより深く理解する必要がある。
本稿では,NVIDIA H100/H200 やAMD MI250 GPU など,さまざまな実世界のワークロードやハードウェアプラットフォームを対象とした LLM トレーニングの包括的評価を行う。
我々は、テンソル、パイプライン、データ、エキスパートといった様々な並列戦略の下で密度とスパースモデルを解析し、ハードウェア利用、消費電力、熱的挙動に与える影響を評価する。
さらに,アクティベーション再計算や計算通信の重複といった最適化の有効性を評価する。
以上の結果から,ハードウェア容量のスケーリングだけでは性能が決定できないことがわかった。
より少ない、高メモリのGPUを持つスケールアップシステムは、通信バウンドなシステムではスケールアウトシステムより優れているが、慎重に調整された構成でしか実行できない。
また, テンソルとパイプラインなどの並列性の組み合わせにより, 不効率なデータチャンキングによる帯域幅の低減が図られる一方で, マイクロバッチサイズが一定点を超えると, バースト実行やピーク電力の流出が引き起こされ, 熱スロットリングが悪化することを示した。
これらの洞察は、ハードウェア、システムトポロジ、モデル実行の間の複雑な相互作用によって、トレーニングのパフォーマンスがどのように形成されているかを明らかにする。
我々は、将来のLLMシステムやワークロードのスケーラビリティと信頼性を向上させるために、システム設計とハードウェア設計の推奨を提供することで締めくくります。
プロジェクトのソースコードはhttps://github.com/sitar-lab/CharLLM-PPTで公開されている。
関連論文リスト
- MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training [29.44470664154098]
ハードウェア構成と並列化戦略の注意深い検討が,モデルサイズ,トレーニングデータ,総計算の効果的なスケーリングに重要であることを示す。
我々は、モデルサイズ、ハードウェア構成、分散並列化戦略における大規模LLMトレーニングワークロードの性能に関する広範な実証的研究を行う。
論文 参考訳(メタデータ) (2024-11-20T06:05:11Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance [65.48009829137824]
視覚言語命令チューニングモデルにおける大規模3D並列トレーニングは、異なるデバイス間で不均衡な計算負荷をもたらす。
我々は、データ、モデル、メモリの観点から計算負荷を再均衡させ、デバイス間でよりバランスのとれた計算を実現する。
提案手法の有効性と一般化性は,様々なモデルやデータセットにまたがってさらに検証される。
論文 参考訳(メタデータ) (2024-07-30T12:02:58Z) - Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。
文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文 参考訳(メタデータ) (2024-07-19T19:49:05Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。