論文の概要: QSync: Quantization-Minimized Synchronous Distributed Training Across Hybrid Devices
- arxiv url: http://arxiv.org/abs/2407.02327v1
- Date: Tue, 2 Jul 2024 14:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:06:12.746807
- Title: QSync: Quantization-Minimized Synchronous Distributed Training Across Hybrid Devices
- Title(参考訳): QSync: ハイブリッドデバイス間の量子化最小化同期分散トレーニング
- Authors: Juntao Zhao, Borui Wan, Yanghua Peng, Haibin Lin, Yibo Zhu, Chuan Wu,
- Abstract要約: QSyncは、ハイブリッドデバイス上で効率的な同期データ並列DNNトレーニングを可能にするトレーニングシステムである。
そこで本研究では,QSyncが分散混合精度トレーニングを5%の誤差で正確にシミュレートできることを示し,その精度は0.27-1.03%向上した。
- 参考スコア(独自算出の注目度): 10.431324251519696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of production deep learning clusters have attempted to explore inference hardware for DNN training, at the off-peak serving hours with many inference GPUs idling. Conducting DNN training with a combination of heterogeneous training and inference GPUs, known as hybrid device training, presents considerable challenges due to disparities in compute capability and significant differences in memory capacity. We propose QSync, a training system that enables efficient synchronous data-parallel DNN training over hybrid devices by strategically exploiting quantized operators. According to each device's available resource capacity, QSync selects a quantization-minimized setting for operators in the distributed DNN training graph, minimizing model accuracy degradation but keeping the training efficiency brought by quantization. We carefully design a predictor with a bi-directional mixed-precision indicator to reflect the sensitivity of DNN layers on fixed-point and floating-point low-precision operators, a replayer with a neighborhood-aware cost mapper to accurately estimate the latency of distributed hybrid mixed-precision training, and then an allocator that efficiently synchronizes workers with minimized model accuracy degradation. QSync bridges the computational graph on PyTorch to an optimized backend for quantization kernel performance and flexible support for various GPU architectures. Extensive experiments show that QSync's predictor can accurately simulate distributed mixed-precision training with <5% error, with a consistent 0.27-1.03% accuracy improvement over the from-scratch training tasks compared to uniform precision.
- Abstract(参考訳): 多くのプロダクションディープラーニングクラスタが、DNNトレーニングのための推論ハードウェアを、多くの推論GPUをアイドリングするオフピークサービス時間で探索しようと試みている。
ハイブリッドデバイストレーニングとして知られるヘテロジニアストレーニングと推論GPUの組み合わせによるDNNトレーニングの実行は、計算能力の相違とメモリ容量の大きな違いにより、かなりの課題を提起する。
量子化演算子を戦略的に活用することにより、ハイブリッドデバイス上での効率的な同期データ並列DNNトレーニングを可能にするトレーニングシステムであるQSyncを提案する。
各デバイスの利用可能なリソース容量に応じて、QSyncは分散DNNトレーニンググラフ内の演算子に対する量子化最小設定を選択し、モデルの精度の劣化を最小限にするが、量子化によってもたらされるトレーニング効率は維持する。
固定点および浮動小数点演算子上のDNN層の感度を反映する双方向混合精度指標を備えた予測器を慎重に設計し,分散ハイブリッド混合精度訓練の遅延を正確に推定する近傍対応コストマッパーを備えたリポレイラと,モデル精度の劣化を最小限に抑えた作業者を効率的に同期するアロケータを設計する。
QSyncはPyTorch上の計算グラフを、量子化カーネルのパフォーマンスとさまざまなGPUアーキテクチャの柔軟なサポートのために最適化されたバックエンドにブリッジする。
広範囲な実験により、QSyncの予測器は分散混合精度トレーニングを5%の誤差で正確にシミュレートできることがわかった。
関連論文リスト
- Gradient-free variational learning with conditional mixture networks [39.827869318925494]
条件付き混合ネットワーク(CMN)の高速・勾配なし変分法であるCAVI-CMNを導入する。
CAVI-CMNは、バックプロパゲーションを伴う最大推定値(MLE)と比較して、競争力があり、しばしば優れた予測精度を達成する。
入力サイズや専門家の数が増加するにつれて、計算時間はMLEと競合的にスケールする。
論文 参考訳(メタデータ) (2024-08-29T10:43:55Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Stochastic Coded Federated Learning: Theoretical Analysis and Incentive
Mechanism Design [18.675244280002428]
我々は、コード化されたコンピューティング技術を活用する新しいFLフレームワーク、コード付きフェデレーションラーニング(SCFL)を提案する。
SCFLでは、各エッジデバイスがプライバシを保存するコード化されたデータセットをサーバにアップロードする。
SCFLは、与えられた時間内でより良いモデルを学び、ベースライン方式よりも優れたプライバシーとパフォーマンスのトレードオフを実現する。
論文 参考訳(メタデータ) (2022-11-08T09:58:36Z) - Low Precision Decentralized Distributed Training with Heterogeneous Data [5.43185002439223]
トレーニングと推論の計算複雑性を低減することを目的とした,低精度分散トレーニングの収束性を示す。
実験によると、8ビットの分散トレーニングは、不均一なデータであっても、その完全精度と比較して、最小限の精度の損失がある。
論文 参考訳(メタデータ) (2021-11-17T20:48:09Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Hybrid In-memory Computing Architecture for the Training of Deep Neural
Networks [5.050213408539571]
ハードウェアアクセラレータ上でのディープニューラルネットワーク(DNN)のトレーニングのためのハイブリッドインメモリコンピューティングアーキテクチャを提案する。
HICをベースとしたトレーニングでは,ベースラインに匹敵する精度を達成するために,推論モデルのサイズが約50%小さくなることを示す。
シミュレーションの結果,HICをベースとしたトレーニングにより,PCMの耐久限界のごく一部に,デバイスによる書き込みサイクルの回数を自然に確保できることがわかった。
論文 参考訳(メタデータ) (2021-02-10T05:26:27Z) - PSO-PS: Parameter Synchronization with Particle Swarm Optimization for
Distributed Training of Deep Neural Networks [16.35607080388805]
我々はディープニューラルネットワーク(DNN)の分散トレーニングプロセスにParticle Swarm Optimizationを統合する新しいアルゴリズムを提案する。
提案アルゴリズムでは,粒子によって計算処理を符号化し,DNNの重みとトレーニング損失を粒子特性によってモデル化する。
各同期段階では、重みや勾配を平均化する代わりに、すべての労働者から集められたサブウェイトからPSOによって重みが更新される。
論文 参考訳(メタデータ) (2020-09-06T05:18:32Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。