論文の概要: Does compressing activations help model parallel training?
- arxiv url: http://arxiv.org/abs/2301.02654v1
- Date: Fri, 6 Jan 2023 18:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:49:35.714950
- Title: Does compressing activations help model parallel training?
- Title(参考訳): 圧縮アクティベーションは並列トレーニングのモデルに役立つか?
- Authors: Song Bian, Dacheng Li, Hongyi Wang, Eric P. Xing, Shivaram
Venkataraman
- Abstract要約: モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
- 参考スコア(独自算出の注目度): 64.59298055364336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale Transformer models are known for their exceptional performance in
a range of tasks, but training them can be difficult due to the requirement for
communication-intensive model parallelism. One way to improve training speed is
to compress the message size in communication. Previous approaches have
primarily focused on compressing gradients in a data parallelism setting, but
compression in a model-parallel setting is an understudied area. We have
discovered that model parallelism has fundamentally different characteristics
than data parallelism. In this work, we present the first empirical study on
the effectiveness of compression methods for model parallelism. We implement
and evaluate three common classes of compression algorithms - pruning-based,
learning-based, and quantization-based - using a popular Transformer training
framework. We evaluate these methods across more than 160 settings and 8
popular datasets, taking into account different hyperparameters, hardware, and
both fine-tuning and pre-training stages. We also provide analysis when the
model is scaled up. Finally, we provide insights for future development of
model parallelism compression algorithms.
- Abstract(参考訳): 大規模トランスフォーマーモデルは様々なタスクにおいて例外的な性能で知られているが、通信集約型モデル並列性を必要とするため、訓練は困難である。
トレーニング速度を改善する1つの方法は、通信におけるメッセージサイズを圧縮することである。
従来の手法は主にデータ並列性の設定における勾配の圧縮に焦点を合わせてきたが、モデル並列設定における圧縮は未調査領域である。
モデル並列性はデータ並列性と根本的に異なる特徴を持つことがわかった。
本研究では,モデル並列性に対する圧縮手法の有効性に関する実験的検討を行った。
我々は,一般的なTransformerトレーニングフレームワークを用いて,プルーニングベース,学習ベース,量子化ベースという3つの圧縮アルゴリズムの共通クラスを実装し,評価する。
我々は、これらの手法を160以上の設定と8つの一般的なデータセットで評価し、異なるハイパーパラメータ、ハードウェア、微調整および事前学習の段階を考慮に入れた。
モデルのスケールアップ時の分析も行っています。
最後に,モデル並列性圧縮アルゴリズムの今後の開発について考察する。
関連論文リスト
- A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware
Communication Compression [8.591088380355252]
攻撃的な通信圧縮を備えた大規模NLPモデルのための高速でスケーラブルな分散トレーニングフレームワークOptimus-CCを提案する。
本稿では,圧縮によるモデル品質低下を回避する手法を提案する。
我々は、GPUクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのためのベースラインの最先端ソリューションから優れたスピードアップを実現する。
論文 参考訳(メタデータ) (2023-01-24T06:07:55Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。