論文の概要: The Big Send-off: High Performance Collectives on GPU-based Supercomputers
- arxiv url: http://arxiv.org/abs/2504.18658v1
- Date: Fri, 25 Apr 2025 19:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.932973
- Title: The Big Send-off: High Performance Collectives on GPU-based Supercomputers
- Title(参考訳): The Big Send-off:GPUベースのスーパーコンピュータ上での高性能な集合体
- Authors: Siddharth Singh, Mahua Singh, Abhinav Bhatele,
- Abstract要約: RCCLやCray-MPICHのような既存のライブラリは、Frontierのようなシステムに限界がある。
通信ライブラリであるPCCLを導入し,全プロセッサとリダクションスキャッタ操作の高度に最適化された実装について述べる。
RCCLで6-33x、Cray-MPICHで28-70x、Frontierで2048 GCDで全プロセッサで6-70xの高速化を実現している。
- 参考スコア(独自算出の注目度): 1.852182371724987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We evaluate the current state of collective communication on GPU-based supercomputers for large language model (LLM) training at scale. Existing libraries such as RCCL and Cray-MPICH exhibit critical limitations on systems such as Frontier -- Cray-MPICH underutilizes network and compute resources, while RCCL suffers from severe scalability issues. To address these challenges, we introduce PCCL, a communication library with highly optimized implementations of all-gather and reduce-scatter operations tailored for distributed deep learning workloads. PCCL is designed to maximally utilize all available network and compute resources and to scale efficiently to thousands of GPUs. It achieves substantial performance improvements, delivering 6-33x speedups over RCCL and 28-70x over Cray-MPICH for all-gather on 2048 GCDs of Frontier. These gains translate directly to end-to-end performance: in large-scale GPT-3-style training, PCCL provides up to 60% and 40% speedups over RCCL for 7B and 13B parameter models, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)学習のためのGPUベースのスーパーコンピュータ上での集団通信の現状を評価する。
既存のRCCLやCray-MPICHのようなライブラリはFrontierのようなシステムに限界があり、Cray-MPICHはネットワークや計算資源を弱くし、RCCLは厳しいスケーラビリティの問題に悩まされている。
これらの課題に対処するために,分散ディープラーニングワークロードに適した全集合および縮小散乱操作の高度に最適化された実装を備えた通信ライブラリであるPCCLを紹介する。
PCCLは、利用可能なすべてのネットワークと計算資源を最大限に活用し、数千のGPUに効率的にスケールするように設計されている。
RCCLで6-33x、Cray-MPICHで28-70x、Frontierで2048 GCDで全プロセッサで6-70xの高速化を実現している。
大規模 GPT-3 スタイルのトレーニングでは、PCCL は 7B と 13B のパラメータモデルに対して RCCL よりも 60% と 40% のスピードアップを提供する。
関連論文リスト
- Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning [2.685330831042324]
通信コストを削減し,メモリ使用量を改善するため,ZeRO++の通信と最適化戦略の集合を提案する。
20B GPTモデルでは、ZeRO++の最大384 GCDと比較して1.71倍のTFLOPS増加、最大384 GCDのスケーリング効率は0.94である。
論文 参考訳(メタデータ) (2025-01-08T04:19:57Z) - FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources [45.40926501138365]
我々は、高度な合成最適化技術に基づいて構築された一般的なCLIPトレーニングフレームワークであるFastCLIPを紹介する。
我々のフレームワークは、通信オーバーヘッドを低減するための効率的な勾配低減戦略を備えている。
我々は、FastCLIPと最先端のトレーニングベースラインのパフォーマンスを、異なる計算スケールでベンチマークする。
論文 参考訳(メタデータ) (2024-07-01T16:37:18Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset
Selection [59.77647907277523]
敵対的コントラスト学習(ACL)は、高価なデータアノテーションを必要としないが、敵対的攻撃に耐える堅牢な表現を出力する。
ACLは、すべてのトレーニングデータの逆の変種を生成するのに、膨大な実行時間が必要です。
本稿では,ACLの高速化を目的としたロバストネス対応コアセット選択(RCS)手法を提案する。
論文 参考訳(メタデータ) (2023-02-08T03:20:14Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - High Performance Hyperspectral Image Classification using Graphics
Processing Units [0.0]
リアルタイムリモートセンシングアプリケーションは、オンボードのリアルタイム処理機能を必要とする。
軽量で小型で低消費電力のハードウェアは、オンボードのリアルタイム処理システムに不可欠である。
論文 参考訳(メタデータ) (2021-05-30T09:26:03Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。