Fugu-MT 論文翻訳(概要): Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods

論文の概要: Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods

arxiv url: http://arxiv.org/abs/2406.13936v1
Date: Thu, 20 Jun 2024 02:08:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 17:36:50.223486
Title: Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods
Title（参考訳）: 分散局所勾配法における通信効率の良い適応バッチサイズ戦略
Authors: Tim Tsz-Kit Lau, Weijian Li, Chenwei Xu, Han Liu, Mladen Kolar,
Abstract要約: 通信オーバーヘッドは、データ並列のミニバッチ勾配法における主要なボトルネックである。局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
参考スコア（独自算出の注目度）: 17.006352664497122
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern deep neural networks often require distributed training with many workers due to their large size. As worker numbers increase, communication overheads become the main bottleneck in data-parallel minibatch stochastic gradient methods with per-iteration gradient synchronization. Local gradient methods like Local SGD reduce communication by only syncing after several local steps. Despite understanding their convergence in i.i.d. and heterogeneous settings and knowing the importance of batch sizes for efficiency and generalization, optimal local batch sizes are difficult to determine. We introduce adaptive batch size strategies for local gradient methods that increase batch sizes adaptively to reduce minibatch gradient variance. We provide convergence guarantees under homogeneous data conditions and support our claims with image classification experiments, demonstrating the effectiveness of our strategies in training and generalization.
Abstract（参考訳）: 現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。作業者数の増加に伴い,データ並列最小バッチ確率勾配法において,通信オーバーヘッドが主なボトルネックとなる。 Local SGDのような局所勾配法は、いくつかのローカルステップの後にのみ同期することで通信を減少させる。不均一な設定におけるそれらの収束を理解し、効率と一般化のためのバッチサイズの重要性を知っているにもかかわらず、最適なローカルバッチサイズを決定することは困難である。局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。等質なデータ条件下での収束保証と画像分類実験によるクレームの支持を行い、トレーニングと一般化における戦略の有効性を実証する。

関連論文リスト

SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文参考訳（メタデータ） (2026-03-03T23:51:10Z)
Fisher-Orthogonal Projection Methods for Natural Gradient Descent with Large Batches [0.0]
本稿ではFOP(Fisher-Orthogonal Projection)を提案する。これは非常に大きなバッチサイズで2階法の有効性を復元する手法である。 FOPは2つのサブバッチを利用して分散対応更新方向を構築し、勾配差の成分で平均勾配を高める。
論文参考訳（メタデータ） (2025-08-19T15:02:22Z)
AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。また,画像分類実験を行い,提案手法のメリットを強調した。
論文参考訳（メタデータ） (2024-02-17T07:49:50Z)
Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文参考訳（メタデータ） (2023-06-16T17:59:51Z)
Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文参考訳（メタデータ） (2023-02-19T17:42:35Z)
GradSkip: Communication-Accelerated Local Gradient Methods with Better Computational Complexity [54.585248253601314]
本研究では,クライアントが通信前に複数の局所勾配型トレーニングステップを実行できるようにすることにより,通信コストの低減を目的とした分散最適化アルゴリズムのクラスについて検討する。特に、修正したGradSkipは、同じ仮定の下で線形に収束し、通信複雑性が同じであることを示す。
論文参考訳（メタデータ） (2022-10-28T20:59:06Z)
Communication-Compressed Adaptive Gradient Method for Distributed Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文参考訳（メタデータ） (2021-11-01T04:54:55Z)
S2 Reducer: High-Performance Sparse Communication to Accelerate Distributed Deep Learning [11.21739015522637]
本稿では,収差保証付き新規なスケッチベーススパース勾配法であるスパース・スケッチ・リデューサ (S2 Reducer) を提案する。 S2Reduceerは、非ゼロ勾配をカウントスケッチとビットマップで圧縮するだけで通信コストを削減できる。以上の結果から,S2reduceerは同じ精度に収束し,スパース通信のオーバーヘッドを81%低減し,最先端手法と比較して1.8$$の高速化を実現した。
論文参考訳（メタデータ） (2021-10-05T16:14:40Z)
Adaptive Quantization of Model Updates for Communication-Efficient Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文参考訳（メタデータ） (2021-02-08T19:14:21Z)
CosSGD: Nonlinear Quantization for Communication-efficient Federated Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文参考訳（メタデータ） (2020-12-15T12:20:28Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Adaptive Gradient Sparsification for Efficient Federated Learning: An Online Learning Approach [11.986523531539165]
フェデレーテッド・ラーニング(FL)は、地理的に分散したデータを用いて機械学習モデルをトレーニングするための新興技術である。勾配スペーシフィケーション(GS)を適用することができ、完全な勾配の代わりに、勾配の重要な要素の小さなサブセットが通信される。本稿では,近距離通信とトレードオフを自動的に判定する新しいオンライン学習定式化とアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-14T13:09:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。