Fugu-MT 論文翻訳(概要): Step-Ahead Error Feedback for Distributed Training with Compressed Gradient

論文の概要: Step-Ahead Error Feedback for Distributed Training with Compressed Gradient

arxiv url: http://arxiv.org/abs/2008.05823v3
Date: Mon, 24 Jan 2022 15:49:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-30 22:57:00.569515
Title: Step-Ahead Error Feedback for Distributed Training with Compressed Gradient
Title（参考訳）: 圧縮勾配をもつ分散トレーニングのためのステップ・アヘッド誤差フィードバック
Authors: An Xu, Zhouyuan Huo, Heng Huang
Abstract要約: 集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
参考スコア（独自算出の注目度）: 99.42912552638168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although the distributed machine learning methods can speed up the training of large deep neural networks, the communication cost has become the non-negligible bottleneck to constrain the performance. To address this challenge, the gradient compression based communication-efficient distributed learning methods were designed to reduce the communication cost, and more recently the local error feedback was incorporated to compensate for the corresponding performance loss. However, in this paper, we will show that a new "gradient mismatch" problem is raised by the local error feedback in centralized distributed training and can lead to degraded performance compared with full-precision training. To solve this critical problem, we propose two novel techniques, 1) step ahead and 2) error averaging, with rigorous theoretical analysis. Both our theoretical and empirical results show that our new methods can handle the "gradient mismatch" problem. The experimental results show that we can even train faster with common gradient compression schemes than both the full-precision training and local error feedback regarding the training epochs and without performance loss.
Abstract（参考訳）: 分散機械学習手法は大規模深層ニューラルネットワークのトレーニングを高速化するが、通信コストは性能を制約する非無視のボトルネックとなっている。この課題に対処するため、勾配圧縮に基づく通信効率の高い分散学習法が通信コスト削減のために設計され、最近では、対応する性能損失を補うために局所誤差フィードバックが組み込まれている。しかし,本論文では,集中型分散トレーニングにおける局所的誤差フィードバックにより,新たな「段階的ミスマッチ」問題が発生し,完全精度トレーニングと比較して性能低下につながることを示す。この課題を解決するために,我々は2つの新しい手法を提案する。 1)一歩進んで 2) 厳密な理論解析による誤差平均化。我々の理論的および実証的な結果は、我々の新しい手法が「段階的なミスマッチ」問題に対処できることを示している。実験結果から, 実精度トレーニングと局所誤差フィードバックの両方よりも, 共通の勾配圧縮スキームでより高速な訓練が可能であり, 性能損失も生じないことがわかった。

関連論文リスト

Learn2Mix: Training Neural Networks Using Adaptive Data Integration [24.082008483056462]
learn2mixは、バッチ内のクラス比率を適応的に調整し、エラー率の高いクラスに焦点を当てる、新しいトレーニング戦略である。ベンチマークデータセット上で実施された実証的な評価は、学習2mixでトレーニングされたニューラルネットワークが、既存のアプローチでトレーニングされたニューラルネットワークよりも早く収束していることを示している。
論文参考訳（メタデータ） (2024-12-21T04:40:07Z)
Accelerated Methods with Compressed Communications for Distributed Optimization Problems under Data Similarity [55.03958223190181]
本稿では,データ類似性の下での非バイアス圧縮とバイアス圧縮を利用した,理論上初めての高速化アルゴリズムを提案する。我々の結果は、異なる平均損失とデータセットに関する実験によって記録され、確認されています。
論文参考訳（メタデータ） (2024-12-21T00:40:58Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Simplicity bias and optimization threshold in two-layer ReLU networks [24.43739371803548]
過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するのではなく、より単純な解へと収束することを示す。我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。
論文参考訳（メタデータ） (2024-10-03T09:58:57Z)
Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文参考訳（メタデータ） (2024-08-25T09:30:34Z)
Sparse-ProxSkip: Accelerated Sparse-to-Sparse Training in Federated Learning [56.21666819468249]
FL(Federated Learning)では、クライアントリソースの制約と通信コストの両方が、大規模モデルのトレーニングに大きな問題を引き起こします。最近の研究によると、局所的な訓練は加速によってコミュニケーションの複雑さを確実に改善する。 Sparse-ProxSkipを導入し、その課題に対処し、Sparse Training に展開する Straight-Through Estorimat の効率的な手法を実装した。
論文参考訳（メタデータ） (2024-05-31T05:21:12Z)
Communication-Efficient Distributed Learning with Local Immediate Error Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。 LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文参考訳（メタデータ） (2024-02-19T05:59:09Z)
Balance is Essence: Accelerating Sparse Training via Adaptive Gradient Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文参考訳（メタデータ） (2023-01-09T18:50:03Z)
Adversarial Coreset Selection for Efficient Robust Training [11.510009152620666]
トレーニングデータの小さなサブセットを選択することは、堅牢なトレーニングの時間的複雑さを軽減するための原則的なアプローチを提供する方法を示す。本手法が敵の訓練を2～3回高速化することを示すため,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-09-13T07:37:53Z)
Distribution Mismatch Correction for Improved Robustness in Deep Neural Networks [86.42889611784855]
正規化法はノイズや入力の腐敗に関して脆弱性を増大させる本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文参考訳（メタデータ） (2021-10-05T11:36:25Z)
Mixing between the Cross Entropy and the Expectation Loss Terms [89.30385901335323]
クロスエントロピー損失は、トレーニング中にサンプルを分類するのが難しくなる傾向にある。最適化目標に期待損失を加えることで,ネットワークの精度が向上することを示す。実験により,新しいトレーニングプロトコルにより,多様な分類領域における性能が向上することが示された。
論文参考訳（メタデータ） (2021-09-12T23:14:06Z)
Balanced Softmax Cross-Entropy for Incremental Learning [6.5423218639215275]
ディープニューラルネットワークは、新しいクラスや新しいタスクで段階的に訓練されると壊滅的な忘れがちです。近年の手法は破滅的な忘れを緩和するのに有効であることが証明されている。本稿では,バランスの取れたソフトマックスクロスエントロピー損失の利用を提案し,それとインクリメンタル学習のための離脱法を組み合わせることで,パフォーマンスを向上させることができることを示す。
論文参考訳（メタデータ） (2021-03-23T13:30:26Z)
Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文参考訳（メタデータ） (2021-01-20T11:48:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。