論文の概要: ZeRO++: Extremely Efficient Collective Communication for Giant Model
Training
- arxiv url: http://arxiv.org/abs/2306.10209v1
- Date: Fri, 16 Jun 2023 23:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:46:52.725936
- Title: ZeRO++: Extremely Efficient Collective Communication for Giant Model
Training
- Title(参考訳): ZeRO++: 巨大モデルトレーニングのための極めて効率的な集合的コミュニケーション
- Authors: Guanhua Wang, Heyang Qin, Sam Ade Jacobs, Connor Holmes, Samyam
Rajbhandari, Olatunji Ruwase, Feng Yan, Lei Yang, Yuxiong He
- Abstract要約: 本稿では,ZeRO++と呼ぶ通信量削減手法について述べる。
ZeRO++はZeROの通信容量を4倍に減らし、384GPUスケールで最大2.16倍のスループットを実現している。
- 参考スコア(独自算出の注目度): 14.608109247317154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero Redundancy Optimizer (ZeRO) has been used to train a wide range of large
language models on massive GPUs clusters due to its ease of use, efficiency,
and good scalability. However, when training on low-bandwidth clusters, or at
scale which forces batch size per GPU to be small, ZeRO's effective throughput
is limited because of high communication volume from gathering weights in
forward pass, backward pass, and averaging gradients. This paper introduces
three communication volume reduction techniques, which we collectively refer to
as ZeRO++, targeting each of the communication collectives in ZeRO. First is
block-quantization based all-gather. Second is data remapping that trades-off
communication for more memory. Third is a novel all-to-all based quantized
gradient averaging paradigm as replacement of reduce-scatter collective, which
preserves accuracy despite communicating low precision data. Collectively,
ZeRO++ reduces communication volume of ZeRO by 4x, enabling up to 2.16x better
throughput at 384 GPU scale.
- Abstract(参考訳): Zero Redundancy Optimizer (ZeRO)は、使用の容易さ、効率性、スケーラビリティの向上により、大規模なGPUクラスタ上で、幅広い大規模な言語モデルをトレーニングするために使用されている。
しかしながら、低帯域幅クラスタでのトレーニングや、gpu当たりのバッチサイズを小さくするスケールでは、前方パス、後方パス、平均勾配での重みの収集から通信量が多いため、zeroの効果的なスループットは制限される。
本稿では,ゼロ++と総称される3つの通信量削減手法について紹介する。
まず、ブロック量子化ベースのall-gatherです。
第二に、より多くのメモリのために通信をトレードオフするデータリマッピングです。
第3のアプローチは,低精度データを通信しながら精度を保ちながら,レデュース散乱集団の代替として,全対一の量子化勾配平均化パラダイムである。
ZeRO++はZeROの通信容量を4倍に減らし、384GPUスケールで最大2.16倍のスループットを実現している。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - T3: Transparent Tracking & Triggering for Fine-grained Overlap of
Compute & Collectives [1.908240145212707]
大規模言語モデルは、トレーニングと推論のために分散技術にますます依存しています。
このような手法は本質的にモデル実行と通信をシリアライズする。
このシリアライズされた通信を隠す方法の1つは、(通信されたデータの)プロデューサ操作をきめ細かな方法でインターリーブすることである。
本稿では,リソース競合を最小限に抑えつつ,並列化通信を透過的に重複させるハードウェア・ソフトウェア共同設計のT3を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:55:34Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Rethinking Memory and Communication Cost for Efficient Large Language
Model Training [25.640899145028296]
大規模言語モデルの学習速度に及ぼすメモリ消費と通信コストの影響を再考する。
実験の結果,PAROはSOTA法に比べて1.19x-2.50倍のトレーニングスループットを向上することがわかった。
HO-Ringアルゴリズムは従来のRingアルゴリズムと比較して通信効率を36.5%向上させる。
論文 参考訳(メタデータ) (2023-10-09T15:08:32Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - Synthesizing Collective Communication Algorithms for Heterogeneous
Networks with TACCL [1.5528708400965123]
大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。
TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。
TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドトレーニングを17%スピードアップする。
論文 参考訳(メタデータ) (2021-11-08T23:20:52Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Communication-Efficient Decentralized Learning with Sparsification and
Adaptive Peer Selection [13.963329236804586]
本稿では,以下の特徴を持つ分散学習アルゴリズムを提案する。
各ワーカーは、高度に圧縮されたモデルで、各コミュニケーションラウンドで1人のピアと通信するだけです。
実験結果から,本アルゴリズムは通信トラフィックを大幅に削減し,比較的高帯域幅のピアを選択する。
論文 参考訳(メタデータ) (2020-02-22T12:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。