論文の概要: Communication Efficient LLM Pre-training with SparseLoCo
- arxiv url: http://arxiv.org/abs/2508.15706v2
- Date: Wed, 05 Nov 2025 21:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.131476
- Title: Communication Efficient LLM Pre-training with SparseLoCo
- Title(参考訳): SparseLoCoを用いたLLM事前学習の効率化
- Authors: Amir Sarfi, Benjamin Thérien, Joel Lidin, Eugene Belilovsky,
- Abstract要約: 我々は,Large Language Models(LLMs)のための通信効率のよい学習アルゴリズムであるSparseLoCoを紹介する。
SparseLoCoは、Top-kスペーシフィケーションと2ビット量子化によるエラーフィードバックを効果的に活用して、極端なスペーシリティを1-3%まで低くする。
我々は、SparseLoCoが性能と通信コストの両方で大きな利益をもたらすような、コミュニケーションに制約のあるLLMトレーニング設定を経験的に実証した。
- 参考スコア(独自算出の注目度): 13.326450941764099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across datacenters and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization is often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages error feedback with Top-k sparsification and 2-bit quantization to reach extreme sparsity as low as 1-3% while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback accumulator combined with aggressive sparsity, and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.
- Abstract(参考訳): 通信効率のよい分散トレーニングアルゴリズムは、最近、データセンターやインターネット上の帯域制限された設定において、Large Language Models(LLM)をトレーニングする利点により、かなりの関心を集めている。
通信周波数は減少するが、これらの手法は依然として、データセンター間リンクであっても通信ボトルネックの中でモデルの勾配の完全なコピーを通信する必要がある。
さらに、単純なAdamW DDPベースラインと比較して若干性能を劣化させることができる。
量子化は擬段階的サイズを減らすためにしばしば適用されるが、LLM事前学習の文脈では、既存のアプローチはスパース化を付加的に活用できず、限られた量子化を得た。
本研究では,LLMにおける通信効率のよいトレーニングアルゴリズムであるSparseLoCoを紹介する。このアルゴリズムは,Top-kスペーシフィケーションと2ビット量子化によるエラーフィードバックを効果的に活用し,完全精度のDiLoCoよりも高い1-3%の極端スペーシティに達する。
我々の重要な観測は、外モーメントをアキュムレータとアグレッシブな間隔の組み合わせで局所的に近似することが可能であり、スパースアグリゲーションはモデル性能を実際に改善できるということである。
我々は、SparseLoCoが性能と通信コストの両方で大きな利益をもたらすような、コミュニケーションに制約のあるLLMトレーニング設定を経験的に実証した。
関連論文リスト
- Communication-Aware Knowledge Distillation for Federated LLM Fine-Tuning over Wireless Networks [28.49324627841803]
大きな言語モデル(LLM)のためのフェデレーションラーニング(FL)は、クライアントが生データを交換することなく、ローカルにデプロイされたLLMまたはより小さな言語モデル(SLM)を協調的に微調整できるプライバシー保護スキームを提供する。
従来のFLモデルのパラメータ共有手法は、多くの技術的課題を解決するが、それでも高い通信オーバーヘッドを発生させる。
共有ロジットによる相互知識伝達の枠組みであるフェデレート蒸留を提案する。
提案手法は,通信オーバヘッドを約50%削減しつつ,ベースライン方式よりも優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2025-09-01T20:10:01Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - ProFe: Communication-Efficient Decentralized Federated Learning via Distillation and Prototypes [3.7340128675975173]
分散フェデレーションラーニング(DFL)は、協力的かつプライバシー保護的な方法でモデルをトレーニングする。
本稿では,知識蒸留,プロトタイプ学習,量子化技術を組み合わせたDFLのための新しい通信最適化アルゴリズムであるProFeを紹介する。
論文 参考訳(メタデータ) (2024-12-15T14:49:29Z) - CELLM: An Efficient Communication in Large Language Models Training for Federated Learning [0.0]
本論文は,フェデレートラーニング(FL)における大規模言語モデル(LLM)の効率的な学習手法の開発を目的とする。
まず,ローランク適応(LoRA)を用いて局所モデルトレーニングの計算負荷を削減する。
第2に、コミュニケーションコストを大幅に削減するために、トレーニング全体を通してスパース更新を通信します。
論文 参考訳(メタデータ) (2024-07-30T05:24:08Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [52.13056951033747]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
FLにおける重要なボトルネックは通信コストです。
我々の研究は、FLにおける通信複雑性の低減を推進した革新的なScaffnewアルゴリズムにインスパイアされている。
我々はFedComLocを導入し、実用的で効果的な圧縮をScaffnewに統合し、通信効率をさらに高める。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Sparse Training for Federated Learning with Regularized Error Correction [9.852567834643292]
Federated Learning(FL)は、ディープニューラルネットワーク(DNN)モデルをトレーニングする上で大きなメリットがあるため、大きな関心を集めている。
FLAREは、FLプロセスへの埋め込みを正規化した更新モデルの累積引き込みによる新しいスパーストレーニング手法を提案する。
FLAREの性能は、多種多様な複雑なモデルに関する広範な実験を通じて検証され、顕著なスパーシリティレベル(現在の最先端の10倍以上の)を達成するとともに、精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-12-21T12:36:53Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。