論文の概要: AB-Training: A Communication-Efficient Approach for Distributed Low-Rank Learning
- arxiv url: http://arxiv.org/abs/2405.01067v2
- Date: Sun, 30 Jun 2024 08:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:19:57.324860
- Title: AB-Training: A Communication-Efficient Approach for Distributed Low-Rank Learning
- Title(参考訳): AB-Training:分散低ランク学習のためのコミュニケーション効率の良いアプローチ
- Authors: Daniel Coquelin, Katherina Flügel, Marie Weiel, Nicholas Kiefer, Muhammed Öz, Charlotte Debus, Achim Streit, Markus Götz,
- Abstract要約: ABトレーニングは、低ランク表現と独立したトレーニンググループを活用して通信オーバーヘッドを低減する新しいデータ並列手法である。
実験では,様々なスケーリングシナリオにおいて,ネットワークトラフィックの約70.31%が平均で減少することを示した。
- 参考スコア(独自算出の注目度): 0.07227323884094951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication bottlenecks severely hinder the scalability of distributed neural network training, particularly in high-performance computing (HPC) environments. We introduce AB-training, a novel data-parallel method that leverages low-rank representations and independent training groups to significantly reduce communication overhead. Our experiments demonstrate an average reduction in network traffic of approximately 70.31\% across various scaling scenarios, increasing the training potential of communication-constrained systems and accelerating convergence at scale. AB-training also exhibits a pronounced regularization effect at smaller scales, leading to improved generalization while maintaining or even reducing training time. We achieve a remarkable 44.14 : 1 compression ratio on VGG16 trained on CIFAR-10 with minimal accuracy loss, and outperform traditional data parallel training by 1.55\% on ResNet-50 trained on ImageNet-2012. While AB-training is promising, our findings also reveal that large batch effects persist even in low-rank regimes, underscoring the need for further research into optimized update mechanisms for massively distributed training.
- Abstract(参考訳): 通信ボトルネックは、特に高性能コンピューティング(HPC)環境で、分散ニューラルネットワークトレーニングのスケーラビリティを著しく損なう。
我々は、低ランク表現と独立した訓練グループを活用して、通信オーバーヘッドを大幅に削減する新しいデータ並列手法であるABトレーニングを導入する。
実験では,様々なスケーリングシナリオにおけるネットワークトラフィックの約70.31\%の削減,通信制約付きシステムのトレーニング可能性の向上,大規模コンバージェンスの向上を実証した。
ABトレーニングはまた、より小さなスケールで顕著な正規化効果を示し、トレーニング時間を維持したり減らしたりしながら一般化を改善する。
我々は、CIFAR-10でトレーニングされたVGG16の44.14 : 1圧縮比を極小精度で達成し、ImageNet-2012でトレーニングされたResNet-50で従来のデータ並列トレーニングを1.55\%上回った。
ABトレーニングが有望である一方で、我々の研究結果は、大規模なバッチ効果が低ランク状態でも持続していることも示しており、大規模分散トレーニングのための最適化された更新メカニズムのさらなる研究の必要性を強調している。
関連論文リスト
- Learn2Mix: Training Neural Networks Using Adaptive Data Integration [24.082008483056462]
learn2mixは、バッチ内のクラス比率を適応的に調整し、エラー率の高いクラスに焦点を当てる、新しいトレーニング戦略である。
ベンチマークデータセット上で実施された実証的な評価は、学習2mixでトレーニングされたニューラルネットワークが、既存のアプローチでトレーニングされたニューラルネットワークよりも早く収束していることを示している。
論文 参考訳(メタデータ) (2024-12-21T04:40:07Z) - Balanced Training for Sparse GANs [16.045866864231417]
本研究では, スパース発生器と判別器のバランスを研究するために, BRと呼ばれる新しい指標を提案する。
また、GANトレーニング中にBRを制御し、性能と計算コストのトレードオフを良好に達成するために、バランスド・ダイナミックスパース・トレーニング(ADAPT)と呼ばれる新しい手法を導入する。
論文 参考訳(メタデータ) (2023-02-28T15:34:01Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Sparsity Winning Twice: Better Robust Generalization from More Efficient
Training [94.92954973680914]
スパース対位訓練の代替として, (i) スタティック・スパシティと (ii) ダイナミック・スパシティの2つを紹介した。
いずれの方法も、ロバストな一般化ギャップを大幅に縮小し、ロバストなオーバーフィッティングを緩和する。
我々のアプローチは既存の正規化器と組み合わせて、敵の訓練における新たな最先端の成果を確立することができる。
論文 参考訳(メタデータ) (2022-02-20T15:52:08Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and Spatially for Efficient DNN Training [62.932299614630985]
本稿では, アクティベーション, ウェイト, 勾配の精度を徐々に向上させる, プログレッシブ分数量子化を統合したFracTrainを提案する。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Data optimization for large batch distributed training of deep neural
networks [0.19336815376402716]
ディープニューラルネットワークの分散トレーニングの現在のプラクティスは、大規模運用における通信ボトルネックの課題に直面している。
本研究では,局所的ミニマの少ない損失環境を暗黙的に平滑化するために,機械学習を用いたデータ最適化手法を提案する。
当社のアプローチでは,機能学習において重要でないデータポイントをフィルタリングすることで,より大きなバッチサイズでのモデルのトレーニングを高速化し,精度の向上を実現しています。
論文 参考訳(メタデータ) (2020-12-16T21:22:02Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。