論文の概要: Pufferfish: Communication-efficient Models At No Extra Cost
- arxiv url: http://arxiv.org/abs/2103.03936v1
- Date: Fri, 5 Mar 2021 20:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 21:26:20.303135
- Title: Pufferfish: Communication-efficient Models At No Extra Cost
- Title(参考訳): Pufferfish: 余計なコストでコミュニケーション効率の高いモデル
- Authors: Hongyi Wang, Saurabh Agarwal, Dimitris Papailiopoulos
- Abstract要約: Pufferfishはコミュニケーションと効率的な分散トレーニングフレームワークです。
低ランクで事前リファクタリングされたディープネットワークをトレーニングすることで、勾配圧縮をモデルトレーニングプロセスに組み込む。
最先端の市販の深層モデルと同じ精度を実現している。
- 参考スコア(独自算出の注目度): 7.408148824204065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To mitigate communication overheads in distributed model training, several
studies propose the use of compressed stochastic gradients, usually achieved by
sparsification or quantization. Such techniques achieve high compression
ratios, but in many cases incur either significant computational overheads or
some accuracy loss. In this work, we present Pufferfish, a communication and
computation efficient distributed training framework that incorporates the
gradient compression into the model training process via training low-rank,
pre-factorized deep networks. Pufferfish not only reduces communication, but
also completely bypasses any computation overheads related to compression, and
achieves the same accuracy as state-of-the-art, off-the-shelf deep models.
Pufferfish can be directly integrated into current deep learning frameworks
with minimum implementation modification. Our extensive experiments over real
distributed setups, across a variety of large-scale machine learning tasks,
indicate that Pufferfish achieves up to 1.64x end-to-end speedup over the
latest distributed training API in PyTorch without accuracy loss. Compared to
the Lottery Ticket Hypothesis models, Pufferfish leads to equally accurate,
small-parameter models while avoiding the burden of "winning the lottery".
Pufferfish also leads to more accurate and smaller models than SOTA structured
model pruning methods.
- Abstract(参考訳): 分散モデルトレーニングにおける通信オーバーヘッドを軽減するために、いくつかの研究は圧縮確率勾配の使用を提案している。
このような手法は高い圧縮比を達成するが、多くの場合、かなりの計算オーバーヘッドまたはある程度の精度の損失を生じる。
本稿では,低ランクで事前構成された深層ネットワークをトレーニングすることで,勾配圧縮をモデルトレーニングプロセスに組み込む通信・計算効率のよい分散トレーニングフレームワークであるPufferfishを提案する。
Pufferfishは通信を減らすだけでなく、圧縮に関連する計算オーバーヘッドを完全に回避し、最先端の既成の深層モデルと同じ精度を達成する。
Pufferfishは、最小限の実装変更で現在のディープラーニングフレームワークに直接統合することができる。
さまざまな大規模な機械学習タスクにわたって、実際の分散セットアップに関する広範な実験により、PyTorchの最新の分散トレーニングAPIに対して、Pufferfishが最大1.64倍のエンドツーエンドのスピードアップを達成できることが示されています。
Lottery Ticket仮説モデルと比較すると、Pufferfishは「宝くじに勝つ」という負担を回避しつつ、同じくらい正確で小さなパラメータモデルを生み出す。
Pufferfishはまた、SOTA構造化モデルプルーニング法よりも正確で小さなモデルを生み出す。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Cuttlefish: Low-Rank Model Training without All the Tuning [55.984294012024755]
自動低ランクトレーニングアプローチであるCuttlefishを紹介します。
カトルフィッシュは、すべての階層の安定したランクが収束すると、フルランクからローランクのトレーニングに切り替える。
以上の結果から,Cuttlefishはフルランクモデルの最大5.6倍のモデルを生成し,エンドツーエンドのトレーニングプロセスの最大1.2倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-05-04T04:20:20Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - Paoding: Supervised Robustness-preserving Data-free Neural Network
Pruning [3.6953655494795776]
エンフェータフリーコンテキストにおけるニューラルネットワークのプルーニングについて検討する。
従来の攻撃的なワンショット戦略を、プルーニングを進歩的なプロセスとして扱う保守的な戦略に置き換えます。
提案手法は,TextscPaodingというPythonパッケージとして実装され,多様なニューラルネットワークモデルに関する一連の実験により評価された。
論文 参考訳(メタデータ) (2022-04-02T07:09:17Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z) - A Partial Regularization Method for Network Compression [0.0]
本稿では, モデル圧縮を高速に行うために, 完全正則化と言われる全てのパラメータをペナライズする元の形式ではなく, 部分正則化のアプローチを提案する。
実験結果から, ほぼすべての状況において, 走行時間の減少を観測することにより, 計算複雑性を低減できることが示唆された。
驚くべきことに、複数のデータセットのトレーニングフェーズとテストフェーズの両方において、回帰フィッティング結果や分類精度などの重要な指標を改善するのに役立ちます。
論文 参考訳(メタデータ) (2020-09-03T00:38:27Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。