論文の概要: Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware
Communication Compression
- arxiv url: http://arxiv.org/abs/2301.09830v1
- Date: Tue, 24 Jan 2023 06:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:19:14.442497
- Title: Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware
Communication Compression
- Title(参考訳): Optimus-CC:3次元並列性を考慮した大規模NLPモデル学習
- Authors: Jaeyong Song, Jinkyu Yim, Jaewon Jung, Hongsun Jang, Hyung-Jin Kim,
Youngsok Kim, Jinho Lee
- Abstract要約: 攻撃的な通信圧縮を備えた大規模NLPモデルのための高速でスケーラブルな分散トレーニングフレームワークOptimus-CCを提案する。
本稿では,圧縮によるモデル品質低下を回避する手法を提案する。
我々は、GPUクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのためのベースラインの最先端ソリューションから優れたスピードアップを実現する。
- 参考スコア(独自算出の注目度): 8.591088380355252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In training of modern large natural language processing (NLP) models, it has
become a common practice to split models using 3D parallelism to multiple GPUs.
Such technique, however, suffers from a high overhead of inter-node
communication. Compressing the communication is one way to mitigate the
overhead by reducing the inter-node traffic volume; however, the existing
compression techniques have critical limitations to be applied for NLP models
with 3D parallelism in that 1) only the data parallelism traffic is targeted,
and 2) the existing compression schemes already harm the model quality too
much.
In this paper, we present Optimus-CC, a fast and scalable distributed
training framework for large NLP models with aggressive communication
compression. Optimus-CC differs from existing communication compression
frameworks in the following ways: First, we compress pipeline parallel
(inter-stage) traffic. In specific, we compress the inter-stage backpropagation
and the embedding synchronization in addition to the existing data-parallel
traffic compression methods. Second, we propose techniques to avoid the model
quality drop that comes from the compression. We further provide mathematical
and empirical analyses to show that our techniques can successfully suppress
the compression error. Lastly, we analyze the pipeline and opt to selectively
compress those traffic lying on the critical path. This further helps reduce
the compression error. We demonstrate our solution on a GPU cluster, and
achieve superior speedup from the baseline state-of-the-art solutions for
distributed training without sacrificing the model quality.
- Abstract(参考訳): 現代の大規模自然言語処理(nlp)モデルのトレーニングでは、3次元並列処理を複数のgpuに分割することが一般的である。
しかし、そのような手法はノード間通信のオーバーヘッドが高い。
通信圧縮はノード間トラフィック量を削減することでオーバーヘッドを軽減する方法のひとつだが、既存の圧縮技術は3次元並列性を持つNLPモデルに適用すべき限界がある。
1)データ並列化トラフィックのみをターゲットとし、
2)既存の圧縮方式はすでにモデル品質に悪影響を与えている。
本稿では,大規模NLPモデルの高速かつスケーラブルな分散トレーニングフレームワークであるOptimus-CCについて述べる。
Optimus-CCは、既存の通信圧縮フレームワークとは異なる。
具体的には、既存のデータ並列トラフィック圧縮手法に加えて、ステージ間バックプロパゲーションと埋め込み同期を圧縮する。
次に,圧縮によるモデル品質低下を回避する手法を提案する。
さらに,本手法が圧縮誤差の抑制に有効であることを示す数学的および経験的分析を行った。
最後に、パイプラインを分析し、クリティカルパス上にあるトラフィックを選択的に圧縮する。
これにより圧縮エラーの低減が図れる。
gpuクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのための最先端ソリューションから優れたスピードアップを実現します。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
Transformerアーキテクチャに基づく大規模モデルは、人工知能においてますます重要な役割を担っている。
モデル圧縮法はメモリと計算コストを削減し、実用的なデバイス上でトランスフォーマーモデルを実装するために必要なステップである。
このサーベイは、最近の圧縮手法の包括的なレビューを提供し、トランスフォーマーモデルへの適用に特に焦点をあてている。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [91.12425544503395]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - GraVAC: Adaptive Compression for Communication-Efficient Distributed DL
Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。
GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。
静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文 参考訳(メタデータ) (2023-05-20T14:25:17Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - Compressed-VFL: Communication-Efficient Learning with Vertically
Partitioned Data [15.85259386116784]
本稿では,垂直分割データを用いたコミュニケーション訓練のための圧縮垂直学習(C-VFL)を提案する。
VFLは,圧縮精度を著しく低下させることなく,通信コストを90%以上削減できることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:34:07Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - A flexible, extensible software framework for model compression based on
the LC algorithm [10.787390511207683]
ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できるソフトウェアフレームワークを提案する。
ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
論文 参考訳(メタデータ) (2020-05-15T21:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。