論文の概要: Communication Efficient LLM Pre-training with SparseLoCo
- arxiv url: http://arxiv.org/abs/2508.15706v1
- Date: Thu, 21 Aug 2025 16:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.408866
- Title: Communication Efficient LLM Pre-training with SparseLoCo
- Title(参考訳): SparseLoCoを用いたLLM事前学習の効率化
- Authors: Amir Sarfi, Benjamin Thérien, Joel Lidin, Eugene Belilovsky,
- Abstract要約: 我々は,Large Language Models(LLMs)のための通信効率のよい学習アルゴリズムであるSparseLoCoを紹介する。
SparseLoCoはTop-kスペーシフィケーションと量子化を効果的に利用し、最大1-3%スペーシリティと2ビット量子化の極端な圧縮比に達する。
我々は、SparseLoCoが性能と通信コストの両方で大きな利益をもたらすような、コミュニケーションに制約のあるLLMトレーニング設定を経験的に実証した。
- 参考スコア(独自算出の注目度): 8.836875135417598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.
- Abstract(参考訳): 通信効率のよい分散トレーニングアルゴリズムは、最近、データセンターやインターネット上の帯域制限された設定において、Large Language Models(LLM)をトレーニングする利点により、かなりの関心を集めている。
通信周波数は減少するが、これらの手法は依然として、データセンター間リンクであっても通信ボトルネックの中でモデルの勾配の完全なコピーを通信する必要がある。
さらに、単純なAdamW DDPベースラインと比較して若干性能を劣化させることができる。
量子化と誤差フィードバックは、擬似階調サイズを減らすためにしばしば適用されるが、LLM事前学習の文脈では、既存のアプローチはスカラー化を付加的に活用できず、限られた量子化を得た。
本研究では,LLMの通信効率向上学習アルゴリズムであるSparseLoCoを導入し,最大1-3%の圧縮率と2ビットの量子化を実現し,全精度のDiLoCoより優れることを示す。
我々の重要な観察は、外モーメントは、攻撃的な間隔と組み合わされた誤差フィードバックによって局所的に近似することができ、スパースアグリゲーションはモデル性能を実際に改善できるということである。
我々は、SparseLoCoが性能と通信コストの両方で大きな利益をもたらすような、コミュニケーションに制約のあるLLMトレーニング設定を経験的に実証した。
関連論文リスト
- CELLM: An Efficient Communication in Large Language Models Training for Federated Learning [0.0]
本論文は,フェデレートラーニング(FL)における大規模言語モデル(LLM)の効率的な学習手法の開発を目的とする。
まず,ローランク適応(LoRA)を用いて局所モデルトレーニングの計算負荷を削減する。
第2に、コミュニケーションコストを大幅に削減するために、トレーニング全体を通してスパース更新を通信します。
論文 参考訳(メタデータ) (2024-07-30T05:24:08Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Sparse Training for Federated Learning with Regularized Error Correction [9.852567834643292]
Federated Learning(FL)は、ディープニューラルネットワーク(DNN)モデルをトレーニングする上で大きなメリットがあるため、大きな関心を集めている。
FLAREは、FLプロセスへの埋め込みを正規化した更新モデルの累積引き込みによる新しいスパーストレーニング手法を提案する。
FLAREの性能は、多種多様な複雑なモデルに関する広範な実験を通じて検証され、顕著なスパーシリティレベル(現在の最先端の10倍以上の)を達成するとともに、精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-12-21T12:36:53Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。