論文の概要: Quantized Distributed Training of Large Models with Convergence
Guarantees
- arxiv url: http://arxiv.org/abs/2302.02390v1
- Date: Sun, 5 Feb 2023 14:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 18:35:04.446225
- Title: Quantized Distributed Training of Large Models with Convergence
Guarantees
- Title(参考訳): 収束保証を持つ大規模モデルの量子化分散トレーニング
- Authors: Ilia Markov, Adrian Vladu, Qi Guo, Dan Alistarh
- Abstract要約: FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。
QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 34.054462975511996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication-reduction techniques are a popular way to improve scalability
in data-parallel training of deep neural networks (DNNs). The recent emergence
of large language models such as GPT has created the need for new approaches to
exploit data-parallelism. Among these, fully-sharded data parallel (FSDP)
training is highly popular, yet it still encounters scalability bottlenecks.
One reason is that applying compression techniques to FSDP is challenging: as
the vast majority of the communication involves the model's weights, direct
compression alters convergence and leads to accuracy loss. We present QSDP, a
variant of FSDP which supports both gradient and weight quantization with
theoretical guarantees, is simple to implement and has essentially no
overheads. To derive QSDP we prove that a natural modification of SGD achieves
convergence even when we only maintain quantized weights, and thus the domain
over which we train consists of quantized points and is, therefore, highly
non-convex. We validate this approach by training GPT-family models with up to
1.3 billion parameters on a multi-node cluster. Experiments show that QSDP
preserves model accuracy, while completely removing the communication
bottlenecks of FSDP, providing end-to-end speedups of up to 2.2x.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のデータ並列トレーニングにおけるスケーラビリティ向上のための,通信還元技術が一般的である。
GPTのような最近の大規模言語モデルの出現は、データ並列性を利用する新しいアプローチの必要性を生み出している。
中でも、フルシャードデータ並列(fsdp)トレーニングは高い人気があるが、それでもスケーラビリティのボトルネックに遭遇している。
1つの理由は、FSDPに圧縮技術を適用することは困難であり、ほとんどの通信がモデルの重みを含むため、直接圧縮は収束を変え、精度を低下させる。
理論的な保証で勾配量子化と重み量子化の両方をサポートするFSDPの変種であるQSDPは実装が簡単であり、本質的にオーバーヘッドがない。
QSDP を導出するために、SGD の自然な修正は、量子化された重みしか持たない場合でも収束し、したがって、訓練するべき領域は量子化された点から成り、したがって非常に非凸であることを示す。
マルチノードクラスタ上で最大13億のパラメータを持つGPTファミリーモデルをトレーニングすることで、このアプローチを検証する。
実験の結果、QSDPはモデルの精度を保ちながらFSDPの通信ボトルネックを完全に取り除き、エンドツーエンドのスピードアップを最大2.2倍にすることがわかった。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental
Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。
我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。
我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文 参考訳(メタデータ) (2023-09-13T08:51:19Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - NUQSGD: Provably Communication-efficient Data-parallel SGD via
Nonuniform Quantization [28.849864002527273]
データ並列SGDの一般的な通信圧縮方法の1つは、通信コストを削減するために勾配を定量化し符号化するQSGDである。
qsgdのベースライン変種は強い理論的保証を提供するが、実際、著者らはqsgdinfと呼ばれる変種を提案した。
本稿では,新しい量子化スキームを提案し,qsgdよりも強い理論保証を持ち,qsgdinfの実証的性能と一致することを示す。
論文 参考訳(メタデータ) (2021-04-28T15:07:03Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。