論文の概要: TawPipe: Topology-Aware Weight Pipeline Parallelism for Accelerating Long-Context Large Models Training
- arxiv url: http://arxiv.org/abs/2511.09741v1
- Date: Fri, 14 Nov 2025 01:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.456619
- Title: TawPipe: Topology-Aware Weight Pipeline Parallelism for Accelerating Long-Context Large Models Training
- Title(参考訳): TawPipe: 長期大規模訓練を加速するためのトポロジーを考慮した軽量パイプライン並列処理
- Authors: Houming Wu, Ling Chen,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングは、デバイスメモリの制限とデバイス間通信のコストによって、基本的に制限されている。
分散クラスタにおける階層的帯域幅を利用して通信効率を向上させるTawPipeを提案する。
- 参考スコア(独自算出の注目度): 9.859893936091813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) is fundamentally constrained by limited device memory and costly inter-device communication. Although pipeline parallelism alleviates memory pressure by partitioning models across devices, it incurs activation communication overhead that scales linearly with sequence length, limiting efficiency in long-context training. Recent weight-passing approaches (e.g., WeiPipe) mitigate this by transmitting model weights instead of activations, but suffer from redundant peer-to-peer (P2P) transfers and underutilized intra-node bandwidth. We propose TawPipe--topology-aware weight pipeline parallelism, which exploits hierarchical bandwidth in distributed clusters for improved communication efficiency. TawPipe: (i) groups devices based on topology to optimize intra-node collective and inter-node P2P communication; (ii) assigns each device a fixed shard of model weights and gradients, avoiding redundant transfers; and (iii) overlaps communication with computation to hide latency. Unlike global collective operations used in fully sharded data parallelism (FSDP), TawPipe confines most communication within node boundaries, significantly reducing cross-node traffic. Extensive experiments on up to 24 GPUs with LLaMA-style models show that TawPipe achieves superior throughput and scalability compared to state-of-the-art baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングは、デバイスメモリの制限とデバイス間通信のコストによって、基本的に制限されている。
パイプライン並列処理は、デバイス間でモデルを分割することでメモリ圧力を軽減するが、長いコンテキストトレーニングにおいて、シーケンス長と線形にスケールするアクティベーション通信オーバーヘッドを引き起こす。
最近の重量通過法(例えばWeiPipe)は、活性化の代わりにモデルの重みを伝達することでこれを緩和するが、冗長なピア・ツー・ピア(P2P)転送と未使用のノード内帯域幅に悩まされている。
本稿では,分散クラスタにおける階層的帯域幅を利用して通信効率を向上させるTawPipe-totoology-aware weight pipeline parallelismを提案する。
TawPipe
一 ノード内集団及びノード間P2P通信を最適化するためのトポロジに基づくグループ装置
(ii)各装置にモデルの重みと勾配の固定シャードを割り当て、冗長な転送を回避させる。
(iii)通信と計算を重複させて遅延を隠蔽する。
完全なシャードデータ並列処理(FSDP)で使用されるグローバルな集合演算とは異なり、TawPipeはノード境界内での通信の大部分を制限し、ノード間のトラフィックを大幅に削減する。
LLaMAスタイルのモデルを用いた最大24GPUの大規模な実験により、TawPipeは最先端のベースラインよりも優れたスループットとスケーラビリティを実現している。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms [4.127488674019288]
大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。
ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
論文 参考訳(メタデータ) (2025-08-07T13:37:04Z) - Model Parallelism With Subnetwork Data Parallelism [21.914077370806016]
大規模な大規模ニューラルネットワークの事前トレーニングは、アクセラレータに大量のメモリ要求を課し、しばしば高価な通信を必要とする。
本稿では,分散トレーニングフレームワークであるSubnetwork Data Parallelism(SDP)を紹介する。
本研究では,不偏勾配を維持するために下位段階のみに空間性を適用した後方マスキングと,前方パスのパラメータを除去してより高効率なゲインを実現する前方マスキングの2つの相補的なマスキング方式について検討する。
論文 参考訳(メタデータ) (2025-07-11T21:25:11Z) - TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。
提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文 参考訳(メタデータ) (2025-06-02T06:13:41Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。