論文の概要: Efficient Distributed Auto-Differentiation
- arxiv url: http://arxiv.org/abs/2102.09631v1
- Date: Thu, 18 Feb 2021 21:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 16:59:02.508603
- Title: Efficient Distributed Auto-Differentiation
- Title(参考訳): 効率的な分散自動微分
- Authors: Bradley T. Baker, Vince D. Calhoun, Barak Pearlmutter, Sergey M. Plis
- Abstract要約: 大規模ディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多い。
グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。
このプロセスは、バックプロパゲーション中のグラデーション平均の柔軟性を提供し、新しい柔軟なトレーニングスキーマを可能にします。
- 参考スコア(独自算出の注目度): 22.192220404846267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although distributed machine learning has opened up numerous frontiers of
research, the separation of large models across different devices, nodes, and
sites can invite significant communication overhead, making reliable training
difficult.
The focus on gradients as the primary shared statistic during training has
led to a number of intuitive algorithms for distributed deep learning; however,
gradient-based algorithms for training large deep neural networks (DNNs) are
communication-heavy, often requiring additional modifications via sparsity
constraints, compression, quantization, and other similar approaches, to lower
bandwidth.
We introduce a surprisingly simple statistic for training distributed DNNs
that is more communication-friendly than the gradient. The error
backpropagation process can be modified to share these smaller intermediate
values instead of the gradient, reducing communication overhead with no impact
on accuracy. The process provides the flexibility of averaging gradients during
backpropagation, enabling novel flexible training schemas while leaving room
for further bandwidth reduction via existing gradient compression methods.
Finally, consideration of the matrices used to compute the gradient inspires a
new approach to compression via structured power iterations, which can not only
reduce bandwidth but also enable introspection into distributed training
dynamics, without significant performance loss.
- Abstract(参考訳): 分散機械学習は多くの研究のフロンティアを開いたが、さまざまなデバイス、ノード、サイトにわたる大規模なモデルの分離は、重要な通信オーバーヘッドを招き、信頼性の高いトレーニングを難しくする。
しかし、大規模なディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多いため、帯域幅を小さくするためには、疎性制約、圧縮、量子化、その他の類似のアプローチによる追加的な修正が必要となることが多い。
グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。
エラーバックプロパゲーションプロセスは、勾配の代わりにこれらの小さな中間値を共有するように変更することができ、精度に影響を与えることなく通信オーバーヘッドを削減できる。
このプロセスは、バックプロパゲーション中の勾配平均化の柔軟性を提供し、既存の勾配圧縮方式による帯域幅削減の余地を残しながら、新しい柔軟なトレーニングスキーマを可能にする。
最後に、勾配を計算するために使用される行列の考慮は、帯域幅を減らすだけでなく、大幅なパフォーマンスの損失なしに分散トレーニングダイナミクスへの内省を可能にする構造化された電力反復を介して圧縮への新しいアプローチを刺激します。
関連論文リスト
- FLARE: Detection and Mitigation of Concept Drift for Federated Learning
based IoT Deployments [2.7776688429637466]
FLAREは、トレーニングデータを条件付きで転送し、エッジとセンサのエンドポイント間でモデルをデプロイする、軽量なデュアルスケジューリングFLフレームワークである。
固定間隔スケジューリング法と比較して,FLAREはエッジノードとセンサノード間で交換されるデータ量を大幅に削減できることを示す。
少なくとも16倍のレイテンシで、コンセプトドリフトを反応的に検出できる。
論文 参考訳(メタデータ) (2023-05-15T10:09:07Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Scaling Private Deep Learning with Low-Rank and Sparse Gradients [5.14780936727027]
ニューラルネットワークの低ランクかつスパースな構造を利用して、勾配更新の次元を小さくするフレームワークを提案する。
勾配を拡大するために新しい戦略が利用され、低次元でノイズの少ない更新をもたらす。
自然言語処理とコンピュータビジョンタスクの実証評価により,本手法が他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-06T14:09:47Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed
Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。
提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。
非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2021-02-10T19:41:11Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。