論文の概要: Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient
- arxiv url: http://arxiv.org/abs/2008.05823v3
- Date: Mon, 24 Jan 2022 15:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:57:00.569515
- Title: Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient
- Title(参考訳): 圧縮勾配をもつ分散トレーニングのためのステップ・アヘッド誤差フィードバック
- Authors: An Xu, Zhouyuan Huo, Heng Huang
- Abstract要約: 集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。
本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
- 参考スコア(独自算出の注目度): 99.42912552638168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the distributed machine learning methods can speed up the training
of large deep neural networks, the communication cost has become the
non-negligible bottleneck to constrain the performance. To address this
challenge, the gradient compression based communication-efficient distributed
learning methods were designed to reduce the communication cost, and more
recently the local error feedback was incorporated to compensate for the
corresponding performance loss. However, in this paper, we will show that a new
"gradient mismatch" problem is raised by the local error feedback in
centralized distributed training and can lead to degraded performance compared
with full-precision training. To solve this critical problem, we propose two
novel techniques, 1) step ahead and 2) error averaging, with rigorous
theoretical analysis. Both our theoretical and empirical results show that our
new methods can handle the "gradient mismatch" problem. The experimental
results show that we can even train faster with common gradient compression
schemes than both the full-precision training and local error feedback
regarding the training epochs and without performance loss.
- Abstract(参考訳): 分散機械学習手法は大規模深層ニューラルネットワークのトレーニングを高速化するが、通信コストは性能を制約する非無視のボトルネックとなっている。
この課題に対処するため、勾配圧縮に基づく通信効率の高い分散学習法が通信コスト削減のために設計され、最近では、対応する性能損失を補うために局所誤差フィードバックが組み込まれている。
しかし,本論文では,集中型分散トレーニングにおける局所的誤差フィードバックにより,新たな「段階的ミスマッチ」問題が発生し,完全精度トレーニングと比較して性能低下につながることを示す。
この課題を解決するために,我々は2つの新しい手法を提案する。
1)一歩進んで
2) 厳密な理論解析による誤差平均化。
我々の理論的および実証的な結果は、我々の新しい手法が「段階的なミスマッチ」問題に対処できることを示している。
実験結果から, 実精度トレーニングと局所誤差フィードバックの両方よりも, 共通の勾配圧縮スキームでより高速な訓練が可能であり, 性能損失も生じないことがわかった。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Simplicity bias and optimization threshold in two-layer ReLU networks [24.43739371803548]
過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するのではなく、より単純な解へと収束することを示す。
我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。
論文 参考訳(メタデータ) (2024-10-03T09:58:57Z) - Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。
本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。
我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文 参考訳(メタデータ) (2024-08-25T09:30:34Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Adversarial Coreset Selection for Efficient Robust Training [11.510009152620666]
トレーニングデータの小さなサブセットを選択することは、堅牢なトレーニングの時間的複雑さを軽減するための原則的なアプローチを提供する方法を示す。
本手法が敵の訓練を2~3回高速化することを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-09-13T07:37:53Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Balanced Softmax Cross-Entropy for Incremental Learning [6.5423218639215275]
ディープニューラルネットワークは、新しいクラスや新しいタスクで段階的に訓練されると壊滅的な忘れがちです。
近年の手法は破滅的な忘れを緩和するのに有効であることが証明されている。
本稿では,バランスの取れたソフトマックスクロスエントロピー損失の利用を提案し,それとインクリメンタル学習のための離脱法を組み合わせることで,パフォーマンスを向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T13:30:26Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。