論文の概要: Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware
Communication Compression
- arxiv url: http://arxiv.org/abs/2301.09830v1
- Date: Tue, 24 Jan 2023 06:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:19:14.442497
- Title: Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware
Communication Compression
- Title(参考訳): Optimus-CC:3次元並列性を考慮した大規模NLPモデル学習
- Authors: Jaeyong Song, Jinkyu Yim, Jaewon Jung, Hongsun Jang, Hyung-Jin Kim,
Youngsok Kim, Jinho Lee
- Abstract要約: 攻撃的な通信圧縮を備えた大規模NLPモデルのための高速でスケーラブルな分散トレーニングフレームワークOptimus-CCを提案する。
本稿では,圧縮によるモデル品質低下を回避する手法を提案する。
我々は、GPUクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのためのベースラインの最先端ソリューションから優れたスピードアップを実現する。
- 参考スコア(独自算出の注目度): 8.591088380355252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In training of modern large natural language processing (NLP) models, it has
become a common practice to split models using 3D parallelism to multiple GPUs.
Such technique, however, suffers from a high overhead of inter-node
communication. Compressing the communication is one way to mitigate the
overhead by reducing the inter-node traffic volume; however, the existing
compression techniques have critical limitations to be applied for NLP models
with 3D parallelism in that 1) only the data parallelism traffic is targeted,
and 2) the existing compression schemes already harm the model quality too
much.
In this paper, we present Optimus-CC, a fast and scalable distributed
training framework for large NLP models with aggressive communication
compression. Optimus-CC differs from existing communication compression
frameworks in the following ways: First, we compress pipeline parallel
(inter-stage) traffic. In specific, we compress the inter-stage backpropagation
and the embedding synchronization in addition to the existing data-parallel
traffic compression methods. Second, we propose techniques to avoid the model
quality drop that comes from the compression. We further provide mathematical
and empirical analyses to show that our techniques can successfully suppress
the compression error. Lastly, we analyze the pipeline and opt to selectively
compress those traffic lying on the critical path. This further helps reduce
the compression error. We demonstrate our solution on a GPU cluster, and
achieve superior speedup from the baseline state-of-the-art solutions for
distributed training without sacrificing the model quality.
- Abstract(参考訳): 現代の大規模自然言語処理(nlp)モデルのトレーニングでは、3次元並列処理を複数のgpuに分割することが一般的である。
しかし、そのような手法はノード間通信のオーバーヘッドが高い。
通信圧縮はノード間トラフィック量を削減することでオーバーヘッドを軽減する方法のひとつだが、既存の圧縮技術は3次元並列性を持つNLPモデルに適用すべき限界がある。
1)データ並列化トラフィックのみをターゲットとし、
2)既存の圧縮方式はすでにモデル品質に悪影響を与えている。
本稿では,大規模NLPモデルの高速かつスケーラブルな分散トレーニングフレームワークであるOptimus-CCについて述べる。
Optimus-CCは、既存の通信圧縮フレームワークとは異なる。
具体的には、既存のデータ並列トラフィック圧縮手法に加えて、ステージ間バックプロパゲーションと埋め込み同期を圧縮する。
次に,圧縮によるモデル品質低下を回避する手法を提案する。
さらに,本手法が圧縮誤差の抑制に有効であることを示す数学的および経験的分析を行った。
最後に、パイプラインを分析し、クリティカルパス上にあるトラフィックを選択的に圧縮する。
これにより圧縮エラーの低減が図れる。
gpuクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのための最先端ソリューションから優れたスピードアップを実現します。
関連論文リスト
- Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - Accelerating Large Language Model Training with Hybrid GPU-based Compression [3.204387803072905]
MPIライブラリはメッセージサイズを大幅に削減し、相互接続帯域幅を活用することが証明されている。
分散大言語モデル(LLM)学習における圧縮支援型MPI集団の有効性について検討した。
論文 参考訳(メタデータ) (2024-09-04T04:05:30Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - Unified Low-rank Compression Framework for Click-through Rate Prediction [15.813889566241539]
本稿では,CTR予測モデルを圧縮する低ランク分解フレームワークを提案する。
私たちのフレームワークはオリジナルのモデルよりも優れたパフォーマンスを実現できます。
我々のフレームワークは、様々なCTR予測モデルにテーブルやレイヤーを埋め込むのに利用できる。
論文 参考訳(メタデータ) (2024-05-28T13:06:32Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。