論文の概要: Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods
- arxiv url: http://arxiv.org/abs/2406.13936v2
- Date: Wed, 06 Nov 2024 04:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:09.167449
- Title: Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods
- Title(参考訳): 分散局所勾配法における通信効率の良い適応バッチサイズ戦略
- Authors: Tim Tsz-Kit Lau, Weijian Li, Chenwei Xu, Han Liu, Mladen Kolar,
- Abstract要約: 現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。
ワーカの数が増えるにつれて、通信オーバーヘッドがデータ並列のミニバッチ勾配法における主要なボトルネックとなる。
局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
- 参考スコア(独自算出の注目度): 17.006352664497122
- License:
- Abstract: Modern deep neural networks often require distributed training with many workers due to their large size. As the number of workers increases, communication overheads become the main bottleneck in data-parallel minibatch stochastic gradient methods with per-iteration gradient synchronization. Local gradient methods like Local SGD reduce communication by only synchronizing model parameters and/or gradients after several local steps. Despite an understanding of their convergence and the importance of batch sizes for training efficiency and generalization, optimal batch sizes for local gradient methods are difficult to determine. We introduce adaptive batch size strategies for local gradient methods that increase batch sizes adaptively to reduce minibatch gradient variance. We provide convergence guarantees under homogeneous data conditions and support our claims with image classification and language modeling experiments, demonstrating the effectiveness of our strategies for both training efficiency and generalization.
- Abstract(参考訳): 現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。
ワーカの数が増加するにつれて、データ並列最小バッチ確率勾配法において、通信オーバーヘッドが主なボトルネックとなる。
Local SGDのような局所勾配法は、いくつかの局所ステップの後にモデルパラメータと/または勾配を同期させることによって通信を減少させる。
それらの収束と、訓練効率と一般化のためのバッチサイズの重要性が理解されているにもかかわらず、局所勾配法における最適なバッチサイズを決定することは困難である。
局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
我々は同質なデータ条件下で収束保証を提供し、画像分類と言語モデリング実験でクレームをサポートし、トレーニング効率と一般化の両面での戦略の有効性を実証する。
関連論文リスト
- AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - S2 Reducer: High-Performance Sparse Communication to Accelerate
Distributed Deep Learning [11.21739015522637]
本稿では,収差保証付き新規なスケッチベーススパース勾配法であるスパース・スケッチ・リデューサ (S2 Reducer) を提案する。
S2Reduceerは、非ゼロ勾配をカウントスケッチとビットマップで圧縮するだけで通信コストを削減できる。
以上の結果から,S2reduceerは同じ精度に収束し,スパース通信のオーバーヘッドを81%低減し,最先端手法と比較して1.8$$の高速化を実現した。
論文 参考訳(メタデータ) (2021-10-05T16:14:40Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adaptive Gradient Sparsification for Efficient Federated Learning: An
Online Learning Approach [11.986523531539165]
フェデレーテッド・ラーニング(FL)は、地理的に分散したデータを用いて機械学習モデルをトレーニングするための新興技術である。
勾配スペーシフィケーション(GS)を適用することができ、完全な勾配の代わりに、勾配の重要な要素の小さなサブセットが通信される。
本稿では,近距離通信とトレードオフを自動的に判定する新しいオンライン学習定式化とアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-14T13:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。