論文の概要: DEFT: Exploiting Gradient Norm Difference between Model Layers for
Scalable Gradient Sparsification
- arxiv url: http://arxiv.org/abs/2307.03500v1
- Date: Fri, 7 Jul 2023 10:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:49:19.528707
- Title: DEFT: Exploiting Gradient Norm Difference between Model Layers for
Scalable Gradient Sparsification
- Title(参考訳): DEFT: スケーラブルなGradient Sparsificationのためのモデル層間のグラディエントノルムの爆発的違い
- Authors: Daegun Yoon, Sangyoon Oh
- Abstract要約: 勾配スペーシフィケーションは分散ディープラーニングにおける過剰な通信トラフィックを減らすために広く採用されているソリューションである。
本稿では、勾配選択タスクをサブタスクに分割し、労働者に分散する新しい勾配スペーシフィケーションスキームDEFTを提案する。
既存のスパリファイアよりも勾配選択の速度において,DEFTはトレーニング性能が大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient sparsification is a widely adopted solution for reducing the
excessive communication traffic in distributed deep learning. However, most
existing gradient sparsifiers have relatively poor scalability because of
considerable computational cost of gradient selection and/or increased
communication traffic owing to gradient build-up. To address these challenges,
we propose a novel gradient sparsification scheme, DEFT, that partitions the
gradient selection task into sub tasks and distributes them to workers. DEFT
differs from existing sparsifiers, wherein every worker selects gradients among
all gradients. Consequently, the computational cost can be reduced as the
number of workers increases. Moreover, gradient build-up can be eliminated
because DEFT allows workers to select gradients in partitions that are
non-intersecting (between workers). Therefore, even if the number of workers
increases, the communication traffic can be maintained as per user requirement.
To avoid the loss of significance of gradient selection, DEFT selects more
gradients in the layers that have a larger gradient norm than the other layers.
Because every layer has a different computational load, DEFT allocates layers
to workers using a bin-packing algorithm to maintain a balanced load of
gradient selection between workers. In our empirical evaluation, DEFT shows a
significant improvement in training performance in terms of speed in gradient
selection over existing sparsifiers while achieving high convergence
performance.
- Abstract(参考訳): 分散深層学習における過剰な通信トラフィックを減らすため、勾配スペーシフィケーションが広く採用されている。
しかしながら、既存の勾配分離器の多くは、勾配選択のかなりの計算コストと勾配構築による通信トラフィックの増加のため、スケーラビリティが比較的低い。
これらの課題に対処するため,我々は,勾配選択タスクをサブタスクに分割し,それらをワーカーに分散する,新しい勾配スパーシフィケーションスキームdeftを提案する。
DEFTは既存のスパシファイアと異なり、すべてのワーカーがすべての勾配の中から勾配を選択する。
これにより、作業者数の増加に伴って計算コストを低減できる。
さらに、DEFTでは、非交差(ワーカー間)のパーティションの勾配を選択することができるため、グラデーションのビルドを排除できる。
したがって、労働者数が増えても、通信トラフィックをユーザ要求に応じて維持することができる。
勾配選択の重要さの喪失を避けるため、DEFTは他の層よりも大きな勾配ノルムを持つ層の勾配を選択する。
すべての層が異なる計算負荷を持つため、DEFTは、労働者間の勾配選択のバランスの取れた負荷を維持するために、bin-packingアルゴリズムを使用して、労働者にレイヤを割り当てる。
我々の経験的評価では、DFTは、既存のスパリファイアよりも勾配選択の速度において、高い収束性能を達成しつつ、トレーニング性能が大幅に向上したことを示す。
関連論文リスト
- Preserving Near-Optimal Gradient Sparsification Cost for Scalable
Distributed Deep Learning [0.32634122554914]
勾配スペーシフィケーションは、モデルの忠実度を著しく損なうことなく、通信量を削減するための潜在的な最適化手法である。
既存の勾配スペーシフィケーション法は、アルゴリズムの非効率設計のため、スケーラビリティが低い。
本稿では,これらの課題に対処するため,ExDynaと呼ばれる新しい勾配スカラー化手法を提案する。
実験では、ExDynaはトレーニング速度とスパシフィケーション性能の点で最先端のスパシファイアよりも優れていた。
論文 参考訳(メタデータ) (2024-02-21T13:00:44Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - MiCRO: Near-Zero Cost Gradient Sparsification for Scaling and
Accelerating Distributed DNN Training [0.32634122554914]
勾配スペーシフィケーションは分散ディープニューラルネットワーク(DNN)トレーニングのスケーリングと高速化のためのテクニックである。
既存のスペーサーは、勾配選択の計算コストが高いためスケーラビリティが低い。
そこで本研究では,MiCROと呼ばれる新しい勾配スカラー化手法を提案する。
我々の実験では、MiCROは卓越した収束率で最先端のスパリファイアよりも優れていた。
論文 参考訳(メタデータ) (2023-10-02T08:15:35Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Nested Gradient Codes for Straggler Mitigation in Distributed Machine
Learning [21.319460501659666]
グラディエントコードは、一定数のストラグラーを許容するように設計されている。
フレキシブルなトラグラー数に許容できる勾配符号化方式を提案する。
適切なタスクスケジューリングと小さな追加シグナリングにより、作業者の負荷を実際のストラグラー数に適応させる。
論文 参考訳(メタデータ) (2022-12-16T16:56:51Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Empirical Analysis on Top-k Gradient Sparsification for Distributed Deep
Learning in a Supercomputing Environment [0.6091702876917281]
通信トラフィックを大幅に削減するために,勾配スペーシフィケーションが提案されている。
Top-kグラデーションスペーシフィケーション(Top-k SGD)は、トレーニング全体のパフォーマンス向上に限界がある。
我々はTop-k SGDの非効率性を示す実験を行い、低性能の知見を提供する。
論文 参考訳(メタデータ) (2022-09-18T07:42:31Z) - Layerwise Optimization by Gradient Decomposition for Continual Learning [78.58714373218118]
ディープニューラルネットワークは、様々な領域で最先端の超人的パフォーマンスを実現します。
タスクを逐次学習する場合、ネットワークは「破滅的忘れ」と呼ばれる過去のタスクの知識を忘れやすい。
論文 参考訳(メタデータ) (2021-05-17T01:15:57Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。