論文の概要: Random Reshuffling with Variance Reduction: New Analysis and Better
Rates
- arxiv url: http://arxiv.org/abs/2205.03914v1
- Date: Sun, 8 May 2022 16:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 17:30:25.422172
- Title: Random Reshuffling with Variance Reduction: New Analysis and Better
Rates
- Title(参考訳): 分散低減によるランダムリシャッフル--新しい解析とより良いレート
- Authors: Grigory Malinovsky, Peter Richt\'arik
- Abstract要約: ランダムリシャッフル(RR)は、経験的リスク最小化を通じて教師付き機械学習モデルをトレーニングするための非常に一般的な方法である。
組み込みであり、しばしば標準の機械学習ソフトウェアでデフォルトとして設定される。
我々はFedRRをさらに改善するための3つの新しいアルゴリズムを紹介した。1つはシャッフルによる分散を、もう1つは圧縮による分散をモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random Reshuffling (RR), which is a variant of Stochastic Gradient Descent
(SGD) employing sampling without replacement, is an immensely popular method
for training supervised machine learning models via empirical risk
minimization. Due to its superior practical performance, it is embedded and
often set as default in standard machine learning software. Under the name
FedRR, this method was recently shown to be applicable to federated learning
(Mishchenko et al.,2021), with superior performance when compared to common
baselines such as Local SGD. Inspired by this development, we design three new
algorithms to improve FedRR further: compressed FedRR and two variance reduced
extensions: one for taming the variance coming from shuffling and the other for
taming the variance due to compression. The variance reduction mechanism for
compression allows us to eliminate dependence on the compression parameter, and
applying additional controlled linear perturbations for Random Reshuffling,
introduced by Malinovsky et al.(2021) helps to eliminate variance at the
optimum. We provide the first analysis of compressed local methods under
standard assumptions without bounded gradient assumptions and for heterogeneous
data, overcoming the limitations of the compression operator. We corroborate
our theoretical results with experiments on synthetic and real data sets.
- Abstract(参考訳): 無置換標本を用いた確率的勾配降下(sgd)の変種であるランダム・リシャフリング(rr)は、経験的リスク最小化による教師あり機械学習モデルを訓練する非常に一般的な方法である。
実用性能が優れているため、標準の機械学習ソフトウェアに組み込まれ、しばしばデフォルトとして設定される。
fedrrの名称の下では、最近この手法は、局所sgdのような一般的なベースラインと比較して優れたパフォーマンスを持つフェデレーション学習(mishchenko et al.,2021)に適用可能であることが示されている。
この開発に触発されて、federrをさらに改善するための3つの新しいアルゴリズムをデザインした: 圧縮federrと2つの分散縮小拡張: 1つはシャッフルリングから生じる分散を改ざんし、もう1つは圧縮による分散を改ざんする。
圧縮の分散低減機構により、圧縮パラメータへの依存性をなくし、malinovskyらによって導入されたランダムリシャフリングに対する追加制御線形摂動を適用することができる。
(2021)は最適な分散を排除するのに役立つ。
本研究では, 圧縮演算子の限界を克服し, 境界勾配仮定や不均質データを用いずに, 標準仮定の下で圧縮局所法を初めて解析する。
我々は、合成および実データ集合に関する実験で理論結果と照合する。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Compression with Exact Error Distribution for Federated Learning [33.74795273515338]
正確な誤差分布を達成するための層状量子化器に基づいて,異なるアグリゲーション方式を提案し,解析する。
提案手法を応用して,差分プライバシアプリケーションにおける圧縮自由化を実現する。
論文 参考訳(メタデータ) (2023-10-31T17:48:22Z) - Implicit Compressibility of Overparametrized Neural Networks Trained
with Heavy-Tailed SGD [31.61477313262589]
勾配降下(SGD)を訓練した一層ニューラルネットワークの検討
加法的な重み付きノイズを各繰り返しに注入すると、任意の圧縮率に対して、アルゴリズムの出力が高い確率で圧縮可能であるように過度なパラメータ化のレベルが存在することを示す。
論文 参考訳(メタデータ) (2023-06-13T20:37:02Z) - Federated Optimization Algorithms with Random Reshuffling and Gradient
Compression [2.7554288121906296]
勾配圧縮法と非置換サンプリング法を初めて解析する。
制御イテレートを用いて勾配量子化から生じる分散を減少させる方法を示す。
既存のアルゴリズムを改善するいくつかの設定について概説する。
論文 参考訳(メタデータ) (2022-06-14T17:36:47Z) - EF-BV: A Unified Theory of Error Feedback and Variance Reduction
Mechanisms for Biased and Unbiased Compression in Distributed Optimization [7.691755449724637]
分散最適化と学習では、異なるコンピュータユニット間の通信がボトルネックとなることが多い。
圧縮演算子には2つのクラスがあり、それを利用するアルゴリズムは別々である。
本稿では,特にDIANAとEF21を復元する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T10:44:23Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Distributed Methods with Absolute Compression and Error Compensation [1.52292571922932]
コミュニケーション圧縮はこの問題を緩和するための強力なアプローチである。
本稿では,任意のサンプリング戦略に対する絶対圧縮によるEC-SGDの解析を一般化する。
この設定では、以前知られていたものよりも私たちのレートが向上します。
論文 参考訳(メタデータ) (2022-03-04T15:41:14Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - On Biased Compression for Distributed Learning [55.89300593805943]
バイアス圧縮機が単一ノードと分散設定の両方において線形収束率をもたらすことを初めて示す。
理論的保証と実用性能を期待できる新しいバイアス圧縮機を提案する。
論文 参考訳(メタデータ) (2020-02-27T19:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。