Fugu-MT 論文翻訳(概要): Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning

論文の概要: Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning

arxiv url: http://arxiv.org/abs/2501.04266v1
Date: Wed, 08 Jan 2025 04:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.548419
Title: Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning
Title（参考訳）: 低帯域分割によるフロンティアにおける大規模言語モデルのスケーリング
Authors: Lang Xu, Quentin Anthony, Jacob Hatef, Aamir Shafi, Hari Subramoni, Dhabaleswar K., Panda,
Abstract要約: 通信コストを削減し,メモリ使用量を改善するため,ZeRO++の通信と最適化戦略の集合を提案する。 20B GPTモデルでは、ZeRO++の最大384 GCDと比較して1.71倍のTFLOPS増加、最大384 GCDのスケーリング効率は0.94である。
参考スコア（独自算出の注目度）: 2.685330831042324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling up Large Language Model(LLM) training involves fitting a tremendous amount of training parameters across a limited number of workers. However, methods like ZeRO-3 that drastically reduce GPU memory pressure often incur heavy communication to ensure global synchronization and consistency. Established efforts such as ZeRO++ use secondary partitions to avoid inter-node communications, given that intra-node GPU-GPU transfer generally has more bandwidth and lower latency than inter-node connections. However, as more capable infrastructure like Frontier, equipped with AMD GPUs, emerged with impressive computing capability, there is a need for investigations on the hardware topology and to develop targeted strategies to improve training efficiency. In this work, we propose a collection of communication and optimization strategies for ZeRO++ to reduce communication costs and improve memory utilization. In this paper, we propose a 3-level hierarchical partitioning specifically for the current Top-1 supercomputing cluster, Frontier, which aims at leveraging various bandwidths across layers of communications (GCD-GCD, GPU-GPU, and inter-node) to reduce communication overhead. For a 20B GPT model, we observe a 1.71x increase in TFLOPS per GPU when compared with ZeRO++ up to 384 GCDs and a scaling efficiency of 0.94 for up to 384 GCDs. To the best of our knowledge, our work is also the first effort to efficiently optimize LLM workloads on Frontier AMD GPUs.
Abstract（参考訳）: 大規模言語モデル(LLM)トレーニングのスケールアップには、限られた数のワーカに膨大な量のトレーニングパラメータを適用する必要がある。しかし、ZeRO-3のようなGPUメモリの圧力を大幅に下げる手法は、グローバルな同期と一貫性を確保するために、しばしば重い通信を発生させる。 ZeRO++のような確立された取り組みは、ノード間通信を避けるためにセカンダリパーティションを使用する。しかし、AMD GPUを装備したFrontierのようなより有能なインフラストラクチャは、目覚ましい計算能力をもって登場したため、ハードウェアトポロジの調査と、トレーニング効率を改善するためのターゲット戦略の開発が必要である。本研究では,ZeRO++における通信コストの削減とメモリ使用率の向上を目的とした通信最適化手法を提案する。本稿では,通信オーバヘッドを低減するために,通信層(GCD-GCD,GPU-GPU,ノード間)にまたがる様々な帯域幅を活用することを目的とした,現在のTop-1スーパーコンピューティングクラスタであるFrontierの3階層分割を提案する。 20B GPTモデルでは、ZeRO++の最大384 GCDと比較して1.71倍のTFLOPS増加、最大384 GCDのスケーリング効率は0.94である。我々の知る限りでは、Frontier AMD GPU上でLLMワークロードを効率的に最適化するための最初の取り組みでもある。

関連論文リスト

Distributed Equivariant Graph Neural Networks for Large-Scale Electronic Structure Prediction [76.62155593340763]
密度汎関数理論(DFT)データに基づいて訓練された等価グラフニューラルネットワーク(eGNN)は、前例のない規模で電子構造予測を行う可能性がある。しかし、このタスクに必要なグラフ表現は密結合である傾向がある。本稿では,直接GPU通信を利用する分散eGNNの実装と,入力グラフの分割戦略を提案する。
論文参考訳（メタデータ） (2025-07-04T23:53:47Z)
Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch [66.84195842685459]
大規模言語モデル(LLM)のトレーニングは通常、トレーニング時間を短縮するために、多数のアクセラレータに分散される。近年、DiLoCoのような分散アルゴリズムはそのようなコロケーション制約を緩和している。我々は、数十億のパラメータのトレーニングを分散し、以前と同じような品質に到達できることを実験的に示す。
論文参考訳（メタデータ） (2025-01-30T17:23:50Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文参考訳（メタデータ） (2024-06-14T16:59:11Z)
FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。 Fluxは核融合によって最大96%の通信を重複させる可能性がある。全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2024-06-11T00:17:39Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文参考訳（メタデータ） (2023-08-06T21:04:58Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
ZeRO++: Extremely Efficient Collective Communication for Giant Model Training [14.608109247317154]
本稿では,ZeRO++と呼ぶ通信量削減手法について述べる。 ZeRO++はZeROの通信容量を4倍に減らし、384GPUスケールで最大2.16倍のスループットを実現している。
論文参考訳（メタデータ） (2023-06-16T23:26:19Z)
Communication-Efficient Graph Neural Networks with Probabilistic Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文参考訳（メタデータ） (2023-05-04T21:04:01Z)
Communication-Efficient TeraByte-Scale Model Training Framework for Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文参考訳（メタデータ） (2022-01-05T18:09:11Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。