論文の概要: FlashOverlap: Minimizing Tail Latency in Communication Overlap for Distributed LLM Training
- arxiv url: http://arxiv.org/abs/2604.24013v1
- Date: Mon, 27 Apr 2026 03:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.727136
- Title: FlashOverlap: Minimizing Tail Latency in Communication Overlap for Distributed LLM Training
- Title(参考訳): FlashOverlap: 分散LLMトレーニングのための通信オーバーラップにおける遅延最小化
- Authors: Rezaul Karim, Austin Wen, Wang Zongzuo, Weiwei Zhang, Yang Liu, Walid Ahmed,
- Abstract要約: 本研究は,通信遅延を解消する新しい通信計算オーバーラップ手法を提案する。
本稿では,従来型のreduce-scatterとall-gatherを置き換えたFlash-Overlapという手法を提案する。
本手法は通信オーバヘッドを低減し,テール遅延を解消するための正確なアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 5.653799468368196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth in the size of large language models has necessitated the partitioning of computational workloads across accelerators such as GPUs, TPUs, and NPUs. However, these parallelization strategies incur substantial data communication overhead significantly hindering computational efficiency. While communication-computation overlap presents a promising direction, existing data slicing based solutions suffer from tail latency. To overcome this limitation, this research introduces a novel communication-computation overlap technique to eliminate this tail latency in state of the art overlap methods for distributed LLM training. The aim of this technique is to effectively mitigate communication bottleneck of tensor parallelism and data parallelism for distributed training and inference. In particular, we propose a novel method termed Flash-Overlap that replaces conventional collective operations of reduce-scatter and all-gather with decomposed peer-to-peer (P2P) communication and schedules partitioned computations to enable fine-grained overlap. Our method provides an exact algorithm for reducing communication overhead that eliminates tail latency. Moreover, it presents a versatile solution compatible with data-parallel training and various tensor-level parallelism strategies, including TPSP and UP. Experimental evaluations demonstrate that our technique consistently achieves lower latency, superior Model FLOPS Utilization (MFU), and high throughput.
- Abstract(参考訳): 大規模言語モデルのサイズが急速に拡大するにつれ、GPUやTPU、NPUといったアクセラレータ間での計算処理のパーティショニングが必要になった。
しかし、これらの並列化戦略は、かなりのデータ通信オーバーヘッドを発生させ、計算効率を著しく損なう。
通信-計算オーバーラップは有望な方向を示すが、既存のスライシングベースのソリューションはテール遅延に悩まされる。
この制限を克服するために,分散LLMトレーニングのための最先端重複手法において,このテール遅延を解消する,新しい通信計算重複手法を提案する。
この技術の目的は、分散トレーニングと推論のために、テンソル並列性とデータ並列性の通信ボトルネックを効果的に軽減することである。
特に,従来の分散クラスタと全ガザの集合操作を分割されたピアツーピア通信(P2P)に置き換えたFlash-Overlapという手法を提案する。
本手法は通信オーバヘッドを低減し,テール遅延を解消するための正確なアルゴリズムを提供する。
さらに、データ並列トレーニングやTPSPやUPなど、様々なテンソルレベルの並列化戦略と互換性のある汎用的なソリューションを提供する。
実験により,本手法は低レイテンシ,優れたモデルFLOPS利用(MFU),高スループットを実現していることが示された。
関連論文リスト
- Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - ISO: Overlap of Computation and Communication within Seqenence For LLM Inference [8.616769297336708]
本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
論文 参考訳(メタデータ) (2024-09-04T05:22:17Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。