論文の概要: Rethinking gradient sparsification as total error minimization
- arxiv url: http://arxiv.org/abs/2108.00951v1
- Date: Mon, 2 Aug 2021 14:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 14:53:14.378817
- Title: Rethinking gradient sparsification as total error minimization
- Title(参考訳): 全誤差最小化としての勾配スパーシフィケーションの再考
- Authors: Atal Narayan Sahu (1), Aritra Dutta (1), Ahmed M. Abdelmoniem (1),
Trambak Banerjee (2), Marco Canini (1), Panos Kalnis (1) ((1) KAUST, (2)
University of Kansas)
- Abstract要約: 分散トレーニングネットワーク(DNN)における通信ボトルネックに対処する手段として,グラディエント圧縮が広く確立されている。
我々は、特にDNNにとって、勾配スペーシフィケーションの利点は必要であると主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient compression is a widely-established remedy to tackle the
communication bottleneck in distributed training of large deep neural networks
(DNNs). Under the error-feedback framework, Top-$k$ sparsification, sometimes
with $k$ as little as $0.1\%$ of the gradient size, enables training to the
same model quality as the uncompressed case for a similar iteration count. From
the optimization perspective, we find that Top-$k$ is the communication-optimal
sparsifier given a per-iteration $k$ element budget. We argue that to further
the benefits of gradient sparsification, especially for DNNs, a different
perspective is necessary -- one that moves from per-iteration optimality to
consider optimality for the entire training.
We identify that the total error -- the sum of the compression errors for all
iterations -- encapsulates sparsification throughout training. Then, we propose
a communication complexity model that minimizes the total error under a
communication budget for the entire training. We find that the hard-threshold
sparsifier, a variant of the Top-$k$ sparsifier with $k$ determined by a
constant hard-threshold, is the optimal sparsifier for this model. Motivated by
this, we provide convex and non-convex convergence analyses for the
hard-threshold sparsifier with error-feedback. Unlike with Top-$k$ sparsifier,
we show that hard-threshold has the same asymptotic convergence and linear
speedup property as SGD in the convex case and has no impact on the
data-heterogeneity in the non-convex case. Our diverse experiments on various
DNNs and a logistic regression model demonstrated that the hard-threshold
sparsifier is more communication-efficient than Top-$k$.
- Abstract(参考訳): 勾配圧縮は、大規模ディープニューラルネットワーク(dnn)の分散トレーニングにおける通信ボトルネックに取り組むために広く確立された修正である。
エラーフィードバックフレームワークの下では、Top-k$スペーシフィケーション(時として$k$でグラデーションサイズの0.1\%$)は、同様のイテレーションカウントの非圧縮ケースと同じモデル品質のトレーニングを可能にする。
最適化の観点からは、Top-$k$は、要素予算当たりの$k$を与えられた通信最適化スペーサーであることが分かる。
勾配スパーシフィケーションの利点をさらに高めるためには、特にdnnでは、シナリオ毎の最適性からトレーニング全体の最適性を検討するために、異なる視点が必要であると論じている。
すべてのイテレーションにおける圧縮エラーの総和である総エラーが、トレーニング全体を通してスペーシングをカプセル化する。
そこで本研究では,訓練全体における通信予算の総誤差を最小限に抑える通信複雑性モデルを提案する。
我々は、Top-k$スパリファイアの変種であるHard-threshold Sparsifierが、定数のHard-thresholdによって決定される$k$であることを確認した。
そこで本研究では,誤りフィードバックを伴うハードスレッショルドスパルシファイザに対して,凸および非凸収束解析を行う。
トップ$k$のスパーシファイザとは異なり、ハードスレッショルドは凸の場合sgdと同じ漸近収束と線形スピードアップ特性を持ち、非凸の場合のデータヘテロゲニティに影響を与えない。
各種DNNの多種多様な実験とロジスティック回帰モデルにより, 通信効率がTop-$k$よりも高いことを示した。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Variance-reduced Clipping for Non-convex Optimization [24.765794811146144]
グラディエント・クリッピング(Gradient clipping)は、大規模言語モデリングのようなディープラーニングアプリケーションで用いられる技法である。
最近の実験的な訓練は、秩序の複雑さを緩和する、非常に特別な振る舞いを持っている。
論文 参考訳(メタデータ) (2023-03-02T00:57:38Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - High-Dimensional Inference over Networks: Linear Convergence and
Statistical Guarantees [20.701475313495884]
エージェントネットワーク上の疎線形回帰を非指向グラフとしてモデル化し,サーバノードを持たない。
分布予測勾配追跡に基づくアルゴリズムの収束率と統計的保証を解析する。
論文 参考訳(メタデータ) (2022-01-21T01:26:08Z) - Near-Optimal Sparse Allreduce for Distributed Deep Learning [18.99898181586806]
コミュニケーションのオーバーヘッドは、大規模なディープラーニングモデルを大規模にトレーニングする上で、大きな障害のひとつです。
本稿では,スパース勾配を用いた分散トレーニング手法であるO$k$-Top$k$を提案する。
論文 参考訳(メタデータ) (2022-01-19T13:56:57Z) - Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。
推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。
本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文 参考訳(メタデータ) (2021-11-12T01:51:50Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。