論文の概要: Distributed Learning with Compressed Gradient Differences
- arxiv url: http://arxiv.org/abs/1901.09269v3
- Date: Thu, 28 Dec 2023 11:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-30 00:03:56.648027
- Title: Distributed Learning with Compressed Gradient Differences
- Title(参考訳): 圧縮勾配差を用いた分散学習
- Authors: Konstantin Mishchenko and Eduard Gorbunov and Martin Tak\'a\v{c} and
Peter Richt\'arik
- Abstract要約: 大規模な機械学習モデルのトレーニングには、ボトルネックとなるモデル更新のコミュニケーションが必要である。
更新の圧縮(スペーシフィケーションや量子化など)に基づくいくつかの方法が最近提案されている。
本稿では,バッチ圧縮率の違いによってこの問題を解決する分散学習手法を提案する。
- 参考スコア(独自算出の注目度): 18.390802215440992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large machine learning models requires a distributed computing
approach, with communication of the model updates being the bottleneck. For
this reason, several methods based on the compression (e.g., sparsification
and/or quantization) of updates were recently proposed, including QSGD
(Alistarh et al., 2017), TernGrad (Wen et al., 2017), SignSGD (Bernstein et
al., 2018), and DQGD (Khirirat et al., 2018). However, none of these methods
are able to learn the gradients, which renders them incapable of converging to
the true optimum in the batch mode. In this work we propose a new distributed
learning method -- DIANA -- which resolves this issue via compression of
gradient differences. We perform a theoretical analysis in the strongly convex
and nonconvex settings and show that our rates are superior to existing rates.
We also provide theory to support non-smooth regularizers study the difference
between quantization schemes. Our analysis of block-quantization and
differences between $\ell_2$ and $\ell_{\infty}$ quantization closes the gaps
in theory and practice. Finally, by applying our analysis technique to
TernGrad, we establish the first convergence rate for this method.
- Abstract(参考訳): 大規模機械学習モデルのトレーニングには、モデル更新の通信がボトルネックとなる分散コンピューティングアプローチが必要である。
このため、最近、qsgd (alistarh et al., 2017), terngrad (wen et al., 2017), signgd (bernstein et al., 2018), dqgd (khirirat et al., 2018) など、更新の圧縮 (sparsification and/or quantization) に基づくいくつかの方法が提案された。
しかし、これらの手法はいずれも勾配を学習することができず、バッチモードの真の最適値に収束することができない。
本研究では,勾配差の圧縮によりこの問題を解決する分散学習手法であるDIANAを提案する。
強凸および非凸設定において理論的解析を行い、我々の速度が既存の速度よりも優れていることを示す。
また、量子化スキームの違いを研究する非スムース正則化子をサポートする理論を提供する。
ブロック量子化と$\ell_2$と$\ell_{\infty}$の差の分析は、理論と実践のギャップを埋める。
最後に,解析手法を TernGrad に適用することにより,本手法の最初の収束率を確立する。
関連論文リスト
- Learning Distributions via Monte-Carlo Marginalization [9.131712404284876]
サンプルから抽出可能な分布を学習する新しい手法を提案する。
モンテカルロ・マルギナライゼーション(MCMarg)はこの問題に対処するために提案されている。
提案手法は複雑な分布を学習するための強力なツールであり、プロセス全体が微分可能である。
論文 参考訳(メタデータ) (2023-08-11T19:08:06Z) - Compressed and distributed least-squares regression: convergence rates
with applications to Federated Learning [9.31522898261934]
機械学習の勾配アルゴリズムに対する圧縮の影響について検討する。
いくつかの非バイアス圧縮演算子間の収束率の差を強調した。
我々はその結果を連合学習の事例にまで拡張する。
論文 参考訳(メタデータ) (2023-08-02T18:02:00Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Federated Optimization Algorithms with Random Reshuffling and Gradient
Compression [2.7554288121906296]
勾配圧縮法と非置換サンプリング法を初めて解析する。
制御イテレートを用いて勾配量子化から生じる分散を減少させる方法を示す。
既存のアルゴリズムを改善するいくつかの設定について概説する。
論文 参考訳(メタデータ) (2022-06-14T17:36:47Z) - DASHA: Distributed Nonconvex Optimization with Communication
Compression, Optimal Oracle Complexity, and No Client Synchronization [77.34726150561087]
我々は,分散最適化問題に対する新しい手法であるDASHAを開発し,解析する。
MARINAとは異なり、新しいDASHAとDASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、学習をより実用的なものにしている。
論文 参考訳(メタデータ) (2022-02-02T20:10:40Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Quantizing data for distributed learning [24.46948464551684]
通信制約がパフォーマンスのボトルネックを生じさせるネットワーク上のデータを活用することで、モデルをトレーニングする機械学習アプリケーションを検討する。
最近の多くのアプローチでは、更新の圧縮によってこのボトルネックを克服することを提案しているが、モデルが大きくなり、データセットのサイズも大きくなる。
本稿では,グラデーション更新よりもデータを定量化し,学習アプリケーションを支援することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:54:41Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z) - Differentially Quantized Gradient Methods [53.3186247068836]
微分量子化グラディエントDescence (DQ-GD) が$maxsigma_mathrmGD, rhon 2-R$の線形収縮係数を得ることを示す。
あるクラス内のアルゴリズムは$maxsigma_mathrmGD, 2-R$よりも早く収束できない。
論文 参考訳(メタデータ) (2020-02-06T20:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。