論文の概要: Accordion: Adaptive Gradient Communication via Critical Learning Regime
Identification
- arxiv url: http://arxiv.org/abs/2010.16248v1
- Date: Thu, 29 Oct 2020 16:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:29:07.789038
- Title: Accordion: Adaptive Gradient Communication via Critical Learning Regime
Identification
- Title(参考訳): アコーディオン:臨界学習レジーム同定による適応勾配通信
- Authors: Saurabh Agarwal, Hongyi Wang, Kangwook Lee, Shivaram Venkataraman,
Dimitris Papailiopoulos
- Abstract要約: 分散モデルトレーニングは、計算ノードにまたがる頻繁なモデル更新による通信ボトルネックに悩まされる。
これらのボトルネックを軽減するために、実践者はスパーシフィケーションや量子化、低ランク更新といった勾配圧縮技術を使用する。
本研究では,高圧縮比の選択による性能劣化が基本的でないことを示す。
適応圧縮戦略は、最終テスト精度を維持しながら通信を低減することができる。
- 参考スコア(独自算出の注目度): 12.517161466778655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed model training suffers from communication bottlenecks due to
frequent model updates transmitted across compute nodes. To alleviate these
bottlenecks, practitioners use gradient compression techniques like
sparsification, quantization, or low-rank updates. The techniques usually
require choosing a static compression ratio, often requiring users to balance
the trade-off between model accuracy and per-iteration speedup. In this work,
we show that such performance degradation due to choosing a high compression
ratio is not fundamental. An adaptive compression strategy can reduce
communication while maintaining final test accuracy. Inspired by recent
findings on critical learning regimes, in which small gradient errors can have
irrecoverable impact on model performance, we propose Accordion a simple yet
effective adaptive compression algorithm. While Accordion maintains a high
enough compression rate on average, it avoids over-compressing gradients
whenever in critical learning regimes, detected by a simple gradient-norm based
criterion. Our extensive experimental study over a number of machine learning
tasks in distributed environments indicates that Accordion, maintains similar
model accuracy to uncompressed training, yet achieves up to 5.5x better
compression and up to 4.1x end-to-end speedup over static approaches. We show
that Accordion also works for adjusting the batch size, another popular
strategy for alleviating communication bottlenecks.
- Abstract(参考訳): 分散モデルトレーニングは、計算ノードにまたがる頻繁なモデル更新による通信ボトルネックに悩まされる。
これらのボトルネックを軽減するために、実践者はスパーシフィケーションや量子化、低ランク更新といった勾配圧縮技術を使用する。
通常、静的圧縮比を選択する必要があり、モデル精度とイテレーションごとのスピードアップの間のトレードオフのバランスを取る必要がある。
本研究では,高圧縮比の選択による性能劣化が基本的でないことを示す。
適応圧縮戦略は最終テスト精度を維持しながら通信を減少させることができる。
モデル性能に小さな勾配誤差が不可避な影響を与えうる臨界学習システムに関する最近の知見に触発されて,アコーディオンは単純で効果的な適応圧縮アルゴリズムを提案する。
アコーディオンは平均的に十分な圧縮速度を維持しているが、単純な勾配ノルム基準によって検出される臨界学習体制では常に過圧縮勾配を避ける。
分散環境における多数の機械学習タスクに関する広範な実験によれば、アコーディオンは非圧縮トレーニングと同様のモデルの精度を維持しつつ、最大5.5倍の圧縮と最大4.1倍のエンドツーエンドのスピードアップを実現している。
アコーディオンは通信ボトルネックを軽減するためのもうひとつの一般的な戦略であるバッチサイズの調整にも有効であることを示す。
関連論文リスト
- Beyond Throughput and Compression Ratios: Towards High End-to-end Utility of Gradient Compression [13.255861297820326]
勾配圧縮は、通信された勾配データ量を減らすことができる。
実際には、勾配圧縮スキームはトレーニングプロセスの加速を達成せず、精度を保っている。
従来の勾配圧縮システムにおける共通問題と評価手法について述べる。
論文 参考訳(メタデータ) (2024-07-01T15:32:28Z) - Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。