論文の概要: Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training
- arxiv url: http://arxiv.org/abs/2411.13055v1
- Date: Wed, 20 Nov 2024 06:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:11:44.361456
- Title: Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training
- Title(参考訳): 大規模分散トレーニングにおけるハードウェアスケーリングの動向と縮小効果
- Authors: Jared Fernandez, Luca Wehrstedt, Leonid Shamis, Mostafa Elhoushi, Kalyan Saladi, Yonatan Bisk, Emma Strubell, Jacob Kahn,
- Abstract要約: ハードウェア構成と並列化戦略の注意深い検討が,モデルサイズ,トレーニングデータ,総計算の効果的なスケーリングに重要であることを示す。
我々は、モデルサイズ、ハードウェア構成、分散並列化戦略における大規模LLMトレーニングワークロードの性能に関する広範な実証的研究を行う。
- 参考スコア(独自算出の注目度): 29.44470664154098
- License:
- Abstract: Dramatic increases in the capabilities of neural network models in recent years are driven by scaling model size, training data, and corresponding computational resources. To develop the exceedingly large networks required in modern applications, such as large language models (LLMs), model training is distributed across tens of thousands of hardware accelerators (e.g. GPUs), requiring orchestration of computation and communication across large computing clusters. In this work, we demonstrate that careful consideration of hardware configuration and parallelization strategy is critical for effective (i.e. compute- and cost-efficient) scaling of model size, training data, and total computation. We conduct an extensive empirical study of the performance of large-scale LLM training workloads across model size, hardware configurations, and distributed parallelization strategies. We demonstrate that: (1) beyond certain scales, overhead incurred from certain distributed communication strategies leads parallelization strategies previously thought to be sub-optimal in fact become preferable; and (2) scaling the total number of accelerators for large model training quickly yields diminishing returns even when hardware and parallelization strategies are properly optimized, implying poor marginal performance per additional unit of power or GPU-hour.
- Abstract(参考訳): 近年のニューラルネットワークモデルの能力の劇的な増加は、モデルサイズ、トレーニングデータ、およびそれに対応する計算リソースのスケーリングによって引き起こされている。
大規模言語モデル(LLM)のような現代のアプリケーションで必要とされる膨大なネットワークを開発するために、モデルトレーニングは数万のハードウェアアクセラレータ(例えばGPU)に分散し、大規模コンピューティングクラスタ間の計算と通信のオーケストレーションを必要とする。
本研究では,ハードウェア構成と並列化戦略の注意深い検討が,モデルサイズ,トレーニングデータ,総計算の効率的なスケーリング(計算効率,コスト効率)に重要であることを示す。
我々は、モデルサイズ、ハードウェア構成、分散並列化戦略における大規模LLMトレーニングワークロードの性能に関する広範な実証的研究を行う。
実験では,(1)特定の規模を超えて,特定の分散通信戦略から発生するオーバーヘッドは,従来はサブ最適と考えられていた並列化戦略を優先し,(2)大規模モデルトレーニングのためのアクセラレータの総数は,ハードウェアや並列化戦略が適切に最適化された場合でも急速に減少し,追加の電力単位やGPU時間当たりの限界性能が低下することを示す。
関連論文リスト
- Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。
文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文 参考訳(メタデータ) (2024-07-19T19:49:05Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Efficient Parallelization Layouts for Large-Scale Distributed Model Training [17.16249954009967]
本研究では,大規模言語モデルのトレーニング構成に関する総合的研究を行う。
マイクロバッチサイズを1にすることで,トレーニングレイアウトの効率が向上するのが普通だ。
最も効率的な構成により、さまざまなモデルサイズに対して最先端のトレーニング効率を達成できます。
論文 参考訳(メタデータ) (2023-11-09T18:59:38Z) - MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems [6.8519529064678375]
大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。
この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。
このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。
論文 参考訳(メタデータ) (2023-10-04T13:00:53Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。