論文の概要: Model Parallelism With Subnetwork Data Parallelism
- arxiv url: http://arxiv.org/abs/2507.09029v1
- Date: Fri, 11 Jul 2025 21:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.161253
- Title: Model Parallelism With Subnetwork Data Parallelism
- Title(参考訳): サブネットワークデータ並列処理を用いたモデル並列化
- Authors: Vaibhav Singh, Zafir Khalid, Edouard Oyallon, Eugene Belilovsky,
- Abstract要約: 本稿では,個別の作業者に対して,モデルの小型で構造化された作業をトレーニングすることで,メモリ要求を低減できる新しい手法を提案する。
我々は,各パラメータの均一な表現を保証する原理によって導かれる2つのサブネットワーク構築戦略を評価する。
予備実験では、性能を損なうことなく20~40%のメモリ使用量の削減を実現し、我々のアプローチの可能性を強調した。
- 参考スコア(独自算出の注目度): 16.716404770696734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed pre-training of large models at scale often imposes heavy memory demands on individual nodes and incurs significant intra-node communication costs. We propose a novel alternative approach that reduces the memory requirements by training small, structured subnetworks of the model on separate workers. Unlike pipelining, our method avoids inter-node activation communication and maintains bandwidth requirements that are comparable to or lower than standard data parallel communication schemes based on all-reduce. We evaluate two subnetwork construction strategies guided by the principle of ensuring uniform representation of each parameter across the distributed training setup. Our results show that the stochastic block dropping technique consistently outperforms the width-wise subnetwork construction previously explored in federated learning. We empirically attribute this superior performance to stronger gradient alignment in subnetworks that retain blocks having skip connections. Preliminary experiments highlight the promise of our approach, achieving a 20-40% reduction in memory usage without any loss in performance.
- Abstract(参考訳): 大規模モデルの分散事前トレーニングは、個々のノードに大量のメモリ要求を課し、ノード間の通信コストを著しく削減する。
そこで本研究では,小規模で構造化されたサブネットワークを個別の作業者に対してトレーニングすることで,メモリ要求を低減できる新たな手法を提案する。
パイプライン化とは異なり、本手法はノード間通信を回避し、オールリデュースに基づく標準データ並列通信方式に匹敵する帯域幅要件を維持する。
本研究では,分散トレーニング環境における各パラメータの均一な表現を保証するという原則によって導かれる2つのサブネットワーク構築戦略を評価する。
以上の結果から,確率的ブロックダウン手法は,従来フェデレートラーニングにおいて検討されていた幅ワイドサブネットワーク構築よりも優れていたことが示唆された。
我々は、この優れた性能を、スキップ接続を有するブロックを保持するサブネットワークにおいて、より強い勾配アライメントに実証的に評価する。
予備実験では、性能を損なうことなく20~40%のメモリ使用量の削減を実現し、我々のアプローチの可能性を強調した。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Layer-Wise Partitioning and Merging for Efficient and Scalable Deep
Learning [16.38731019298993]
我々は、より優れたトレーニング性能を提供するために、新しいレイヤワイドパーティショニングとマージ、前方および後方パス並列フレームワークを提案している。
実使用事例を実験的に評価したところ,提案手法は訓練速度において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-07-22T11:47:34Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - A Practical Layer-Parallel Training Algorithm for Residual Networks [41.267919563145604]
ResNetのトレーニングのための勾配ベースのアルゴリズムは、通常、入力データの前方パスを必要とし、続いてパラメータを更新するために目的の勾配をバックプロパゲートする。
本稿では,データ拡張を実現するための新しいシリアル並列ハイブリッドトレーニング戦略と,通信コスト削減のためのダウンサンプリングフィルタを提案する。
論文 参考訳(メタデータ) (2020-09-03T06:03:30Z) - Restructuring, Pruning, and Adjustment of Deep Models for Parallel
Distributed Inference [15.720414948573753]
複数の処理ノード(ワーカ)上で既に訓練済みのディープモデルの並列実装について検討する。
並列化モデル全体の性能を保証するレイヤワイドモデル再構成およびプルーニング手法であるRePurposeを提案する。
既存の手法と比較して,RePurposeは並列実装による分散推論の効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-08-19T06:44:41Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。