論文の概要: Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient
- arxiv url: http://arxiv.org/abs/2008.05823v3
- Date: Mon, 24 Jan 2022 15:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:57:00.569515
- Title: Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient
- Title(参考訳): 圧縮勾配をもつ分散トレーニングのためのステップ・アヘッド誤差フィードバック
- Authors: An Xu, Zhouyuan Huo, Heng Huang
- Abstract要約: 集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。
本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
- 参考スコア(独自算出の注目度): 99.42912552638168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the distributed machine learning methods can speed up the training
of large deep neural networks, the communication cost has become the
non-negligible bottleneck to constrain the performance. To address this
challenge, the gradient compression based communication-efficient distributed
learning methods were designed to reduce the communication cost, and more
recently the local error feedback was incorporated to compensate for the
corresponding performance loss. However, in this paper, we will show that a new
"gradient mismatch" problem is raised by the local error feedback in
centralized distributed training and can lead to degraded performance compared
with full-precision training. To solve this critical problem, we propose two
novel techniques, 1) step ahead and 2) error averaging, with rigorous
theoretical analysis. Both our theoretical and empirical results show that our
new methods can handle the "gradient mismatch" problem. The experimental
results show that we can even train faster with common gradient compression
schemes than both the full-precision training and local error feedback
regarding the training epochs and without performance loss.
- Abstract(参考訳): 分散機械学習手法は大規模深層ニューラルネットワークのトレーニングを高速化するが、通信コストは性能を制約する非無視のボトルネックとなっている。
この課題に対処するため、勾配圧縮に基づく通信効率の高い分散学習法が通信コスト削減のために設計され、最近では、対応する性能損失を補うために局所誤差フィードバックが組み込まれている。
しかし,本論文では,集中型分散トレーニングにおける局所的誤差フィードバックにより,新たな「段階的ミスマッチ」問題が発生し,完全精度トレーニングと比較して性能低下につながることを示す。
この課題を解決するために,我々は2つの新しい手法を提案する。
1)一歩進んで
2) 厳密な理論解析による誤差平均化。
我々の理論的および実証的な結果は、我々の新しい手法が「段階的なミスマッチ」問題に対処できることを示している。
実験結果から, 実精度トレーニングと局所誤差フィードバックの両方よりも, 共通の勾配圧縮スキームでより高速な訓練が可能であり, 性能損失も生じないことがわかった。
関連論文リスト
- Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Rank-adaptive spectral pruning of convolutional layers during training [2.3488056916440856]
本稿では,畳み込みをテンソルタッカー形式に分解し,学習中の畳み込みカーネルのタッカーランクを適応的に推定する低パラメトリックトレーニング手法を提案する。
本研究では,全ベースライン性能を確実に近似し,損失降下を保証できるロバストなトレーニングアルゴリズムを得る。
提案手法はトレーニングコストを大幅に削減し,高い性能を達成し,全ベースラインに匹敵する性能を達成し,一貫して競合する低ランクアプローチよりも優れることを示す。
論文 参考訳(メタデータ) (2023-05-30T14:20:51Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Adversarial Coreset Selection for Efficient Robust Training [11.510009152620666]
トレーニングデータの小さなサブセットを選択することは、堅牢なトレーニングの時間的複雑さを軽減するための原則的なアプローチを提供する方法を示す。
本手法が敵の訓練を2~3回高速化することを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-09-13T07:37:53Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。
最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。
実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文 参考訳(メタデータ) (2021-09-12T23:14:06Z) - Balanced Softmax Cross-Entropy for Incremental Learning [6.5423218639215275]
ディープニューラルネットワークは、新しいクラスや新しいタスクで段階的に訓練されると壊滅的な忘れがちです。
近年の手法は破滅的な忘れを緩和するのに有効であることが証明されている。
本稿では,バランスの取れたソフトマックスクロスエントロピー損失の利用を提案し,それとインクリメンタル学習のための離脱法を組み合わせることで,パフォーマンスを向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-23T13:30:26Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。
有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。
そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T16:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。