論文の概要: Heterogeneous Low-Bandwidth Pre-Training of LLMs
- arxiv url: http://arxiv.org/abs/2601.02360v1
- Date: Mon, 05 Jan 2026 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.427741
- Title: Heterogeneous Low-Bandwidth Pre-Training of LLMs
- Title(参考訳): LLMの不均一低バンド幅前処理
- Authors: Yazan Obeidi, Amir Sarfi, Joel Lidin, Paul Janson, Eugene Belilovsky,
- Abstract要約: SparseLoCoは,低帯域幅パイプラインモデル並列化と,低周波同期とスパース擬似勾配交換に基づく低周波データ並列化手法である。
高帯域相互接続で完全なレプリカをホストする異種分散トレーニングフレームワークを導入する一方、リソース制限された参加者は共同でレプリカをインスタンス化するためにグループ化される。
アクティベーション圧縮はSparseLoCoと最小のコストで構成され、選択的(異種)圧縮は損失通信トレードオフを一貫して改善する。
- 参考スコア(独自算出の注目度): 14.653627043173715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training large language models (LLMs) increasingly requires distributed compute, yet bandwidth constraints make it difficult to scale beyond well-provisioned datacenters-especially when model parallelism forces frequent, large inter-device communications. We study whether SparseLoCo, a low-communication data parallel method based on infrequent synchronization and sparse pseudo-gradient exchange, can be combined with low-bandwidth pipeline model parallelism via activation and activation-gradient compression. We introduce a heterogeneous distributed training framework where some participants host full replicas on high-bandwidth interconnects, while resource-limited participants are grouped to jointly instantiate a replica using pipeline parallelism with subspace-projected inter-stage communication. To make the recently introduced subspace pipeline compression compatible with SparseLoCo, we study a number of adaptations. Across large-scale language modeling experiments (178M-1B parameters) on standard pretraining corpora, we find that activation compression composes with SparseLoCo at modest cost, while selective (heterogeneous) compression consistently improves the loss-communication tradeoff relative to compressing all replicas-especially at aggressive compression ratios. These results suggest a practical path to incorporating low-bandwidth model parallelism and heterogeneous participants into LLM pre-training.
- Abstract(参考訳): 事前トレーニングされた大規模言語モデル(LLM)は、分散計算を必要とすることが多いが、帯域幅の制約により、よく計画されたデータセンターを超えてスケールすることが困難になる。
本研究では、低帯域幅パイプラインモデル並列化と、アクティベーション-アクティベーション-グラディエント圧縮を併用して、頻繁な同期とスパース擬似グラディエント交換に基づく低通信データ並列化手法であるSparseLoCoについて検討する。
高帯域相互接続で完全なレプリカをホストする異種分散トレーニングフレームワークを導入する一方、リソース制限された参加者は、サブスペースプロジェクションされた段間通信によるパイプライン並列化を用いて、共同でレプリカをインスタンス化するためにグループ化される。
最近導入されたサブスペースパイプライン圧縮をSparseLoCoと互換性を持たせるために,いくつかの適応について検討した。
標準事前学習コーパスにおける大規模言語モデリング実験 (178M-1B パラメータ) を通じて, アクティベーション圧縮はSparseLoCoと最小コストで構成され, 選択的(異種)圧縮は全てのレプリカ, 特にアグレッシブ圧縮比で圧縮する際の損失通信トレードオフを一貫して改善することがわかった。
これらの結果は,低帯域幅モデル並列性と異種参加者をLCM事前学習に組み込むための実践的な道筋を示唆している。
関連論文リスト
- TawPipe: Topology-Aware Weight Pipeline Parallelism for Accelerating Long-Context Large Models Training [9.859893936091813]
大規模言語モデル(LLM)のトレーニングは、デバイスメモリの制限とデバイス間通信のコストによって、基本的に制限されている。
分散クラスタにおける階層的帯域幅を利用して通信効率を向上させるTawPipeを提案する。
論文 参考訳(メタデータ) (2025-11-12T21:06:37Z) - Distributed Low-Communication Training with Decoupled Momentum Optimization [38.33322656231618]
大規模モデルのトレーニングには相当な計算資源が必要であり、通常は高帯域の相互接続を持つデータセンターでのみ利用可能である。
本稿では,分散モデルレプリカ間の頻繁な同期と運動量勾配圧縮を組み合わせることで,コミュニケーションをさらに削減する手法を提案する。
特に、モーメントを信号として扱い、離散コサイン変換によりネステロフモーメントを高周波成分と低周波成分に分解する。
論文 参考訳(メタデータ) (2025-10-03T08:25:21Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Research on Model Parallelism and Data Parallelism Optimization Methods in Large Language Model-Based Recommendation Systems [6.453224262551299]
推薦システムにおける大規模言語モデル (LLM) はますます顕著になっている。
本稿では,最適化手法の2つのクラス,モデル並列性とデータ並列性について系統的に検討する。
シミュレーションサービス環境における実世界のレコメンデーションデータセットを用いて行った実験は、提案したハイブリッド並列化スキームがトレーニングスループットを30%以上向上することを示した。
論文 参考訳(メタデータ) (2025-06-21T02:37:25Z) - TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。
提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文 参考訳(メタデータ) (2025-06-02T06:13:41Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。