論文の概要: Activations and Gradients Compression for Model-Parallel Training
- arxiv url: http://arxiv.org/abs/2401.07788v1
- Date: Mon, 15 Jan 2024 15:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:36:08.114867
- Title: Activations and Gradients Compression for Model-Parallel Training
- Title(参考訳): モデルパラレルトレーニングにおけるアクティベーションとグラディエント圧縮
- Authors: Mikhail Rudakov, Aleksandr Beznosikov, Yaroslav Kholodov, Alexander
Gasnikov
- Abstract要約: モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
- 参考スコア(独自算出の注目度): 91.12425544503395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks require enormous computational clusters of machines.
Model-parallel training, when the model architecture is partitioned
sequentially between workers, is a popular approach for training modern models.
Information compression can be applied to decrease workers communication time,
as it is often a bottleneck in such systems. This work explores how
simultaneous compression of activations and gradients in model-parallel
distributed training setup affects convergence. We analyze compression methods
such as quantization and TopK compression, and also experiment with error
compensation techniques. Moreover, we employ TopK with AQ-SGD per-batch error
feedback approach. We conduct experiments on image classification and language
model fine-tuning tasks. Our findings demonstrate that gradients require milder
compression rates than activations. We observe that $K=10\%$ is the lowest TopK
compression level, which does not harm model convergence severely. Experiments
also show that models trained with TopK perform well only when compression is
also applied during inference. We find that error feedback techniques do not
improve model-parallel training compared to plain compression, but allow model
inference without compression with almost no quality drop. Finally, when
applied with the AQ-SGD approach, TopK stronger than with $ K=30\%$ worsens
model performance significantly.
- Abstract(参考訳): 大規模なニューラルネットワークは巨大な計算クラスタを必要とする。
モデル並列トレーニング(Model-parallel training)は、モデルアーキテクチャがワーカ間で順次パーティショニングされる場合、モダンなモデルをトレーニングするための一般的なアプローチである。
情報圧縮は、そのようなシステムではボトルネックとなることが多いため、労働者の通信時間を短縮するために応用できる。
本研究は,モデル並列分散トレーニングにおけるアクティベーションと勾配の同時圧縮が収束に与える影響を考察する。
我々は量子化やTopK圧縮などの圧縮手法を解析し、誤り補償手法を実験する。
さらに,TopKとAQ-SGDをバッチ毎のエラーフィードバック手法として採用する。
画像分類と言語モデルの微調整に関する実験を行う。
以上の結果から, 勾配はアクティベーションよりも軽い圧縮率を必要とすることが示された。
我々は、$k=10\%$が最小のtopk圧縮レベルであり、モデル収束を損なわないことを観察する。
実験により、topkでトレーニングされたモデルは、推論中に圧縮が適用される場合にのみうまく機能することも示されている。
誤差フィードバック手法は, 平易な圧縮に比べてモデル並列訓練を改善せず, ほぼ品質低下のない圧縮のないモデル推論が可能となる。
最後に、aq-sgdアプローチを適用すると、k=30\%$のtopkはモデル性能を大幅に低下させる。
関連論文リスト
- DynaQuant: Compressing Deep Learning Training Checkpoints via Dynamic
Quantization [5.931507399723096]
最先端のアプローチには、モデル品質(精度)と圧縮比のトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。
モデル重みの圧縮に対する感度がトレーニング中に変化し、異なる重みが異なる量子化レベルから恩恵を受けることを重要視する。
本稿では,非一様量子化,最適な量子化構成を動的に見つける効率的な探索機構,および量子化対応デルタ圧縮機構を提案する。
論文 参考訳(メタデータ) (2023-06-20T18:00:31Z) - How To Train Your (Compressed) Large Language Model [29.29267133266529]
大規模言語モデルのためのタスク非依存圧縮パイプラインを開発する。
以上の結果から, 単純なレイヤワイドプルーニングに続き, 継続する言語モデルによる事前学習が, 既存の3つの最先端ベースラインを上回り, 性能が向上することが示された。
典型的なタスク特化圧縮とは異なり、最も圧縮されたモデルは、スクラッチから訓練された同様のサイズのモデルよりも大幅に性能が劣る。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - Backdoor Attacks Against Deep Image Compression via Adaptive Frequency
Trigger [106.10954454667757]
本稿では,学習画像圧縮モデルに対する複数のトリガーを用いたバックドアアタックを提案する。
既存の圧縮システムや標準で広く使われている離散コサイン変換(DCT)に動機付けられ,周波数ベースのトリガーインジェクションモデルを提案する。
論文 参考訳(メタデータ) (2023-02-28T15:39:31Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Accordion: Adaptive Gradient Communication via Critical Learning Regime
Identification [12.517161466778655]
分散モデルトレーニングは、計算ノードにまたがる頻繁なモデル更新による通信ボトルネックに悩まされる。
これらのボトルネックを軽減するために、実践者はスパーシフィケーションや量子化、低ランク更新といった勾配圧縮技術を使用する。
本研究では,高圧縮比の選択による性能劣化が基本的でないことを示す。
適応圧縮戦略は、最終テスト精度を維持しながら通信を低減することができる。
論文 参考訳(メタデータ) (2020-10-29T16:41:44Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - A flexible, extensible software framework for model compression based on
the LC algorithm [10.787390511207683]
ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できるソフトウェアフレームワークを提案する。
ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
論文 参考訳(メタデータ) (2020-05-15T21:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。