論文の概要: Adaptive Step-Size Methods for Compressed SGD
- arxiv url: http://arxiv.org/abs/2207.10046v1
- Date: Wed, 20 Jul 2022 17:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 12:48:45.435971
- Title: Adaptive Step-Size Methods for Compressed SGD
- Title(参考訳): 圧縮SGDの適応ステップサイズ法
- Authors: Adarsh M. Subramaniam, Akshayaa Magesh, Venugopal V. Veeravalli
- Abstract要約: 分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
- 参考スコア(独自算出の注目度): 15.32764898836189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compressed Stochastic Gradient Descent (SGD) algorithms have been recently
proposed to address the communication bottleneck in distributed and
decentralized optimization problems, such as those that arise in federated
machine learning. Existing compressed SGD algorithms assume the use of
non-adaptive step-sizes(constant or diminishing) to provide theoretical
convergence guarantees. Typically, the step-sizes are fine-tuned in practice to
the dataset and the learning algorithm to provide good empirical performance.
Such fine-tuning might be impractical in many learning scenarios, and it is
therefore of interest to study compressed SGD using adaptive step-sizes.
Motivated by prior work on adaptive step-size methods for SGD to train neural
networks efficiently in the uncompressed setting, we develop an adaptive
step-size method for compressed SGD. In particular, we introduce a scaling
technique for the descent step in compressed SGD, which we use to establish
order-optimal convergence rates for convex-smooth and strong convex-smooth
objectives under an interpolation condition and for non-convex objectives under
a strong growth condition. We also show through simulation examples that
without this scaling, the algorithm can fail to converge. We present
experimental results on deep neural networks for real-world datasets, and
compare the performance of our proposed algorithm with previously proposed
compressed SGD methods in literature, and demonstrate improved performance on
ResNet-18, ResNet-34 and DenseNet architectures for CIFAR-100 and CIFAR-10
datasets at various levels of compression.
- Abstract(参考訳): 圧縮確率勾配降下(sgd)アルゴリズムは、フェデレーション機械学習で発生するような分散および分散最適化問題における通信ボトルネックに対処するために最近提案されている。
既存の圧縮されたSGDアルゴリズムは、理論収束を保証するために非適応的なステップサイズ(定数または減少)を使用する。
通常、ステップサイズはデータセットと学習アルゴリズムに微調整され、優れた経験的性能を提供する。
このような微調整は多くの学習シナリオでは実用的でなく、適応的なステップサイズを用いて圧縮sgdを研究することが興味深い。
ニューラルネットワークを非圧縮設定で効率的に訓練するためのsgdの適応ステップサイズ法に関する先行研究に動機づけられ,圧縮sgdの適応ステップサイズ法を開発した。
特に, 圧縮sgdにおける降下ステップのスケーリング手法を導入し, 補間条件下で, かつ, 強い成長条件下で非凸目的に対して, 対流スムースおよび強い凸スムース目標の次数-最適収束率を確立する。
また、シミュレーション例を通して、このスケーリングがなければアルゴリズムが収束しないことを示す。
本稿では,実世界のデータセットを対象とした深層ニューラルネットワークの実験結果を示し,提案アルゴリズムの性能を文献で提案する圧縮sgd法と比較し,cifar-100とcifar-10の圧縮レベルでのresnet-18,resnet-34およびdrknetアーキテクチャの性能改善を実証する。
関連論文リスト
- Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Genetically Modified Wolf Optimization with Stochastic Gradient Descent
for Optimising Deep Neural Networks [0.0]
本研究の目的は、人口ベースメタヒューリスティックアルゴリズムを用いて、ニューラルネットワーク(NN)重み付けを最適化するための代替アプローチを分析することである。
Grey Wolf (GWO) と Genetic Modified Algorithms (GA) のハイブリッドをグラディエント・Descent (SGD) と組み合わせて検討した。
このアルゴリズムは、高次元性の問題にも対処しながら、エクスプロイトと探索の組み合わせを可能にする。
論文 参考訳(メタデータ) (2023-01-21T13:22:09Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and
Accurate Deep Learning [24.712888488317816]
トレーニング中にモデルの層をまたいだ圧縮の度合いを動的に適用するためのフレームワークを提供する。
我々のフレームワークはL-GreCoと呼ばれ、モデル層に対する最適圧縮パラメータを自動的に選択する適応アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:37:41Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。