論文の概要: Partial Parameter Updates for Efficient Distributed Training
- arxiv url: http://arxiv.org/abs/2509.22418v1
- Date: Fri, 26 Sep 2025 14:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.512493
- Title: Partial Parameter Updates for Efficient Distributed Training
- Title(参考訳): 効率的な分散トレーニングのための部分的パラメータ更新
- Authors: Anastasiia Filippova, Angelos Katharopoulos, David Grangier, Ronan Collobert,
- Abstract要約: 低コミュニケーション分散トレーニングのためのメモリ効率と計算効率の手法を提案する。
本手法は,同一のトークンと帯域幅の予算の下で,従来の低通信方式の難易度と一致する。
- 参考スコア(独自算出の注目度): 19.405900051147025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a memory- and compute-efficient method for low-communication distributed training. Existing methods reduce communication by performing multiple local updates between infrequent global synchronizations. We demonstrate that their efficiency can be significantly improved by restricting backpropagation: instead of updating all the parameters, each node updates only a fixed subset while keeping the remainder frozen during local steps. This constraint substantially reduces peak memory usage and training FLOPs, while a full forward pass over all parameters eliminates the need for cross-node activation exchange. Experiments on a $1.3$B-parameter language model trained across $32$ nodes show that our method matches the perplexity of prior low-communication approaches under identical token and bandwidth budgets while reducing training FLOPs and peak memory.
- Abstract(参考訳): 低コミュニケーション分散トレーニングのためのメモリ効率と計算効率の手法を提案する。
既存の手法では、頻繁なグローバル同期間の複数のローカル更新を実行することで通信を削減している。
すべてのパラメータを更新する代わりに、各ノードは固定されたサブセットのみを更新し、残りの部分はローカルステップで凍結する。
この制約により、ピークメモリの使用とFLOPのトレーニングが大幅に削減され、全てのパラメータをフルフォワードで通過することで、ノード間のアクティベーション交換が不要になる。
3200ドルのノードでトレーニングされた1.3ドルBパラメータ言語モデルの実験は、我々の手法がFLOPとピークメモリのトレーニングを減らしつつ、同じトークンと帯域幅の予算の下での従来の低コミュニケーションアプローチの難易度と一致することを示している。
関連論文リスト
- Model Parallelism With Subnetwork Data Parallelism [16.716404770696734]
本稿では,個別の作業者に対して,モデルの小型で構造化された作業をトレーニングすることで,メモリ要求を低減できる新しい手法を提案する。
我々は,各パラメータの均一な表現を保証する原理によって導かれる2つのサブネットワーク構築戦略を評価する。
予備実験では、性能を損なうことなく20~40%のメモリ使用量の削減を実現し、我々のアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-07-11T21:25:11Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Communication-Efficient Federated Learning via Regularized Sparse Random
Networks [21.491346993533572]
本研究では,フェデレート学習におけるコミュニケーション効率向上のための新しい手法を提案する。
この設定では、二項マスクはモデル重みの代わりに最適化され、固定される。
伝統的な連邦学習における浮動小数点の重みよりも、Sの疎二元マスクが交換される。
論文 参考訳(メタデータ) (2023-09-19T14:05:12Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。