Fugu-MT 論文翻訳(概要): FastSGD: A Fast Compressed SGD Framework for Distributed Machine Learning

論文の概要: FastSGD: A Fast Compressed SGD Framework for Distributed Machine Learning

arxiv url: http://arxiv.org/abs/2112.04291v1
Date: Wed, 8 Dec 2021 13:56:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-09 16:47:51.048152
Title: FastSGD: A Fast Compressed SGD Framework for Distributed Machine Learning
Title（参考訳）: FastSGD:分散機械学習のための高速圧縮SGDフレームワーク
Authors: Keyu Yang, Lu Chen, Zhihao Zeng, Yunjun Gao
Abstract要約: Gradient Descent(SGD)は、分散機械学習(ML)のワークホースアルゴリズムであることは間違いない。 FastSGDは勾配をキー-値ペアとして表現し、勾配キーと値の両方を線形時間複雑性で圧縮する。 FastSGDは最大4桁の圧縮比を達成し、最先端の手法と比較して収束時間を最大8倍に加速する。
参考スコア（独自算出の注目度）: 16.542846343774357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid increase of big data, distributed Machine Learning (ML) has been widely applied in training large-scale models. Stochastic Gradient Descent (SGD) is arguably the workhorse algorithm of ML. Distributed ML models trained by SGD involve large amounts of gradient communication, which limits the scalability of distributed ML. Thus, it is important to compress the gradients for reducing communication. In this paper, we propose FastSGD, a Fast compressed SGD framework for distributed ML. To achieve a high compression ratio at a low cost, FastSGD represents the gradients as key-value pairs, and compresses both the gradient keys and values in linear time complexity. For the gradient value compression, FastSGD first uses a reciprocal mapper to transform original values into reciprocal values, and then, it utilizes a logarithm quantization to further reduce reciprocal values to small integers. Finally, FastSGD filters reduced gradient integers by a given threshold. For the gradient key compression, FastSGD provides an adaptive fine-grained delta encoding method to store gradient keys with fewer bits. Extensive experiments on practical ML models and datasets demonstrate that FastSGD achieves the compression ratio up to 4 orders of magnitude, and accelerates the convergence time up to 8x, compared with state-of-the-art methods.
Abstract（参考訳）: ビッグデータの急速な増加に伴い、分散機械学習(ML)は大規模モデルのトレーニングに広く適用されてきた。 Stochastic Gradient Descent (SGD) は間違いなくMLのワークホースアルゴリズムである。 SGDによって訓練された分散MLモデルは、分散MLのスケーラビリティを制限する大量の勾配通信を含む。したがって、通信を減らすために勾配を圧縮することが重要である。本稿では,分散MLのための高速圧縮SGDフレームワークであるFastSGDを提案する。低コストで高い圧縮比を達成するために、FastSGDは勾配をキー値対として表現し、勾配鍵と値の両方を線形時間複雑性で圧縮する。勾配値の圧縮のために、FastSGDはまず、逆マッパーを使用して元の値を相互値に変換する。最後に、FastSGDフィルタは所定の閾値で勾配整数を減らした。勾配鍵圧縮のために、fastsgdはより少ないビットで勾配鍵を格納する適応的細粒度デルタ符号化方法を提供する。実用的なMLモデルとデータセットに関する大規模な実験は、FastSGDが最大4桁の圧縮比を達成し、最先端の手法と比較して最大8倍の収束時間を加速することを示した。

関連論文リスト

Faster Convergence of Riemannian Stochastic Gradient Descent with Increasing Batch Size [0.6906005491572401]
バッチサイズの増加は、一定のバッチサイズを使用するよりも、RSGDの高速化につながる。主成分分析と低ランク行列問題の実験により, 成長バッチサイズや指数成長バッチサイズを用いることで, 一定のバッチサイズよりも優れた性能が得られることを確認した。
論文参考訳（メタデータ） (2025-01-30T06:23:28Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Gradient-free Decoder Inversion in Latent Diffusion Models [18.493960162113712]
潜時拡散モデル(LDMs)では、遅延拡散過程は、ピクセル空間よりも次元が低い潜時空間で効率的に発生する。本稿では,多種多様な潜在モデルに適用可能なLDMの高効率勾配自由デコーダインバージョンを提案する。
論文参考訳（メタデータ） (2024-09-27T04:38:14Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文参考訳（メタデータ） (2024-05-17T21:17:27Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Communication-Efficient Federated Learning via Quantized Compressed Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文参考訳（メタデータ） (2021-11-30T02:13:54Z)
S2 Reducer: High-Performance Sparse Communication to Accelerate Distributed Deep Learning [11.21739015522637]
本稿では,収差保証付き新規なスケッチベーススパース勾配法であるスパース・スケッチ・リデューサ (S2 Reducer) を提案する。 S2Reduceerは、非ゼロ勾配をカウントスケッチとビットマップで圧縮するだけで通信コストを削減できる。以上の結果から,S2reduceerは同じ精度に収束し,スパース通信のオーバーヘッドを81%低減し,最先端手法と比較して1.8$$の高速化を実現した。
論文参考訳（メタデータ） (2021-10-05T16:14:40Z)
Quantization for Distributed Optimization [0.0]
本稿では,バニラSGDの性能を維持しながら通信オーバヘッドを大幅に低減する全リデュース勾配対応圧縮方式を提案する。我々の圧縮手法は、現在ディープラーニングフレームワークによって提供されている工法よりも優れています。
論文参考訳（メタデータ） (2021-09-26T05:16:12Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
Federated Stochastic Gradient Langevin Dynamics [12.180900849847252]
勾配ランゲヴィン力学(SGLD)のような勾配MCMC法は、大規模後方サンプリングを可能にするために高速だがノイズの多い勾配推定を用いる。本稿では,局所確率近似を組み合わせ,勾配の修正を行う単純なメカニズムである導出勾配を提案する。 DSGLDが故障した場合に,本手法は遅延通信ラウンドを処理し,ターゲット後方に収束することを示す。
論文参考訳（メタデータ） (2020-04-23T15:25:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。