Fugu-MT 論文翻訳(概要): THC: Accelerating Distributed Deep Learning Using Tensor Homomorphic Compression

論文の概要: THC: Accelerating Distributed Deep Learning Using Tensor Homomorphic Compression

arxiv url: http://arxiv.org/abs/2302.08545v2
Date: Tue, 5 Mar 2024 21:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 18:32:05.916458
Title: THC: Accelerating Distributed Deep Learning Using Tensor Homomorphic Compression
Title（参考訳）: THC:テンソル同型圧縮を用いた分散ディープラーニングの高速化
Authors: Minghao Li (1), Ran Ben Basat (2), Shay Vargaftik (3), ChonLam Lao (1), Kevin Xu (1), Michael Mitzenmacher (1), Minlan Yu (1) ((1) Harvard University, (2) University College London, (3) VMware Research)
Abstract要約: ディープニューラルネットワーク(Deep Neural Network, DNN)は、画像分類、コンピュータビジョン、自然言語処理などの重要なユースケースのデファクトスタンダードである。データセットが大きくなると、ますます大きなクラスタ上での分散トレーニングが必要になる。このボトルネックに対処し、トレーニングを加速するために、広くデプロイされたアプローチは圧縮である。我々は、圧縮された値の直接集約を可能にする新しい双方向圧縮フレームワークであるホモモルフィック圧縮(THC)を紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks (DNNs) are the de facto standard for essential use cases, such as image classification, computer vision, and natural language processing. As DNNs and datasets get larger, they require distributed training on increasingly larger clusters. A main bottleneck is the resulting communication overhead where workers exchange model updates (i.e., gradients) on a per-round basis. To address this bottleneck and accelerate training, a widely-deployed approach is compression. However, previous deployments often apply bi-directional compression schemes by simply using a uni-directional gradient compression scheme in each direction. This results in significant computational overheads at the parameter server and increased compression error, leading to longer training and lower accuracy. We introduce Tensor Homomorphic Compression (THC), a novel bi-directional compression framework that enables the direct aggregation of compressed values and thus eliminating the aforementioned computational overheads. Moreover, THC is compatible with in-network aggregation (INA), which allows for further acceleration. Our evaluation shows that training representative vision and language models with THC reaches target accuracy by 1.40x to 1.47x faster using INA and 1.28x to 1.33x faster using a software PS compared with state-of-the-art systems.
Abstract（参考訳）: ディープニューラルネットワーク(Deep Neural Network, DNN)は、画像分類、コンピュータビジョン、自然言語処理などの重要なユースケースのデファクトスタンダードである。 dnnとデータセットが大きくなるにつれて、さらに大きなクラスタでの分散トレーニングが必要になる。主なボトルネックは、労働者が全体単位のモデル更新(すなわち勾配)を交換する通信オーバーヘッドである。このボトルネックに対処し、トレーニングを加速するために、広くデプロイされたアプローチは圧縮である。しかし、従来のデプロイメントでは、各方向に一方向勾配圧縮スキームを用いることで、双方向の圧縮スキームを適用することが多い。これにより、パラメータサーバの計算オーバーヘッドが大きくなり、圧縮エラーが増大し、トレーニング時間が長くなり、精度が低下する。本稿では, 圧縮された値を直接集約し, 上記の計算オーバーヘッドを解消する新しい双方向圧縮フレームワークであるTensor Homomorphic Compression (THC)を紹介する。さらに、THCはインネットワークアグリゲーション(INA)と互換性があり、さらなる加速を可能にする。評価の結果,THCを用いた代表的視覚と言語モデルの学習精度は INA で1.40倍から1.47倍,PS で1.28倍から1.33倍に向上した。

関連論文リスト

Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-02T02:19:22Z)
PacTrain: Pruning and Adaptive Sparse Gradient Compression for Efficient Collective Communication in Distributed Deep Learning [0.0]
PacTrainは、プルーニングとスパース勾配圧縮を組み合わせることで、分散トレーニングを加速する新しいフレームワークである。 PacTrain圧縮方式は,全再生プリミティブとの互換性を維持しつつ,ほぼ最適圧縮戦略を実現する。
論文参考訳（メタデータ） (2025-05-24T07:06:36Z)
Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文参考訳（メタデータ） (2024-07-05T05:55:18Z)
Communication-Efficient Distributed Learning with Local Immediate Error Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。 LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文参考訳（メタデータ） (2024-02-19T05:59:09Z)
Accelerating Distributed Deep Learning using Lossless Homomorphic Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文参考訳（メタデータ） (2024-02-12T09:57:47Z)
A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たすモデル圧縮法は、Transformerのメモリと計算コストを削減する。この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文参考訳（メタデータ） (2024-02-05T12:16:28Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
GraVAC: Adaptive Compression for Communication-Efficient Distributed DL Training [0.0]
分散データ並列(DDP)トレーニングは、複数のデバイスがデータのサブセットをトレーニングし、アップデートを集約してグローバルに共有するモデルを生成することにより、アプリケーション全体のスループットを向上させる。 GraVACは、モデル進捗を評価し、圧縮に関連する情報損失を評価することで、トレーニング全体を通して圧縮係数を動的に調整するフレームワークである。静的圧縮係数を使用するのとは対照的に、GraVACはResNet101、VGG16、LSTMのエンドツーエンドのトレーニング時間をそれぞれ4.32x、1.95x、6.67x削減する。
論文参考訳（メタデータ） (2023-05-20T14:25:17Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)
Compressed Communication for Distributed Training: Adaptive Methods and System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文参考訳（メタデータ） (2021-05-17T13:41:47Z)
An Efficient Statistical-based Gradient Compression Technique for Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。 SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文参考訳（メタデータ） (2021-01-26T13:06:00Z)
PowerGossip: Practical Low-Rank Communication Compression in Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文参考訳（メタデータ） (2020-08-04T09:14:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。