論文の概要: Model Parallelism With Subnetwork Data Parallelism
- arxiv url: http://arxiv.org/abs/2507.09029v3
- Date: Thu, 02 Oct 2025 01:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.837069
- Title: Model Parallelism With Subnetwork Data Parallelism
- Title(参考訳): サブネットワークデータ並列処理を用いたモデル並列化
- Authors: Vaibhav Singh, Zafir Khalid, Edouard Oyallon, Eugene Belilovsky,
- Abstract要約: 大規模な大規模ニューラルネットワークの事前トレーニングは、アクセラレータに大量のメモリ要求を課し、しばしば高価な通信を必要とする。
本稿では,分散トレーニングフレームワークであるSubnetwork Data Parallelism(SDP)を紹介する。
本研究では,不偏勾配を維持するために下位段階のみに空間性を適用した後方マスキングと,前方パスのパラメータを除去してより高効率なゲインを実現する前方マスキングの2つの相補的なマスキング方式について検討する。
- 参考スコア(独自算出の注目度): 21.914077370806016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training large neural networks at scale imposes heavy memory demands on accelerators and often requires costly communication. We introduce Subnetwork Data Parallelism (SDP), a distributed training framework that partitions a model into structured subnetworks trained across workers without exchanging activations. We study two complementary masking regimes: backward masking, which applies sparsity only in the backward step to retain unbiased gradients, and forward masking, which also removes parameters in the forward pass to deliver stronger efficiency gains while providing additional regularization. We further explore two subnetwork construction strategies: neuron level and block level, applied across both CNNs and transformers. In experiments spanning CNNs and transformers on CIFAR and ImageNet, as well as LLM pre-training on FineWeb, SDP reduces per-device memory usage by 30%-75% while maintaining or improving performance. Notably, in FLOP-matched settings, forward masking can sometimes achieve better performance.
- Abstract(参考訳): 大規模な大規模ニューラルネットワークの事前トレーニングは、アクセラレータに大量のメモリ要求を課し、しばしば高価な通信を必要とする。
本稿では、分散トレーニングフレームワークであるSubnetwork Data Parallelism(SDP)を紹介し、アクティベーションを交換することなく、労働者間でトレーニングされた構造化サブネットワークにモデルを分割する。
本研究では,不偏勾配を維持するために後方段階のみに空間性を適用した後方マスキングと,前方パスのパラメータを除去してより高効率なゲインを提供する前方マスキングという2つの相補的なマスキング方式について検討する。
さらに、ニューロンレベルとブロックレベルという2つのサブネットワーク構築戦略を検討し、CNNとトランスフォーマーの両方に適用する。
CNNとCIFARとImageNetのトランスフォーマー、およびFineWebでのLLM事前トレーニングにまたがる実験では、SDPはパフォーマンスを維持したり改善したりしながら、デバイス毎のメモリ使用量を30%-75%削減する。
特にFLOPにマッチした設定では、フォワードマスキングによりパフォーマンスが向上することがある。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning [16.38731019298993]
我々は、より優れたトレーニング性能を提供するために、新しいレイヤワイドパーティショニングとマージ、前方および後方パス並列フレームワークを提案している。
実使用事例を実験的に評価したところ,提案手法は訓練速度において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-22T11:47:34Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - A Practical Layer-Parallel Training Algorithm for Residual Networks [41.267919563145604]
ResNetのトレーニングのための勾配ベースのアルゴリズムは、通常、入力データの前方パスを必要とし、続いてパラメータを更新するために目的の勾配をバックプロパゲートする。
本稿では,データ拡張を実現するための新しいシリアル並列ハイブリッドトレーニング戦略と,通信コスト削減のためのダウンサンプリングフィルタを提案する。
論文 参考訳(メタデータ) (2020-09-03T06:03:30Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。