論文の概要: TokenWeave: Efficient Compute-Communication Overlap for Distributed LLM Inference
- arxiv url: http://arxiv.org/abs/2505.11329v1
- Date: Fri, 16 May 2025 14:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.368212
- Title: TokenWeave: Efficient Compute-Communication Overlap for Distributed LLM Inference
- Title(参考訳): TokenWeave: 分散LLM推論のための効率的なCompute-Communication Overlap
- Authors: Raja Gond, Nipun Kwatra, Ramachandran Ramjee,
- Abstract要約: 大規模言語モデル(LLM)の分散推論は、NVLINKのような高速な相互接続によって接続されたGPUでも最大20%のオーバーヘッドを発生させることができる。
これらの課題に対処するため、TokenWeaveを紹介します。
TokenWeaveは、推論バッチ内のトークンを、ウェーブアウェア方式で2つのほぼ等しいサブセットに分割するToken-Splitting手法を提案する。
私たちの評価では、複数のモデルやワークロードで29%のレイテンシ向上、最大26%のスループット向上を実現しています。
- 参考スコア(独自算出の注目度): 10.054508615667071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed inference of large language models (LLMs) can introduce overheads of up to 20% even over GPUs connected via high-speed interconnects such as NVLINK. Multiple techniques have been proposed to mitigate these overheads by decomposing computations into finer-grained tasks and overlapping communication with sub-tasks as they complete. However, fine-grained decomposition of a large computation into many smaller computations on GPUs results in overheads. Further, the communication itself uses many streaming multiprocessors (SMs), adding to the overhead. We present TokenWeave to address these challenges. TokenWeave proposes a Token-Splitting technique that divides the tokens in the inference batch into two approximately equal subsets in a wave-aware manner. The computation of one subset is then overlapped with the communication of the other. In addition, TokenWeave optimizes the order of the layer normalization computation with respect to communication operations and implements a novel fused AllReduce-RMSNorm kernel carefully leveraging Multimem instruction support available on NVIDIA Hopper GPUs. These optimizations allow TokenWeave to perform communication and RMSNorm using only 2-8 SMs. Moreover, our kernel enables the memory bound RMSNorm to be overlapped with the other batch's computation, providing additional gains. Our evaluations demonstrate up to 29% latency gains and up to 26% throughput gains across multiple models and workloads. In several settings, TokenWeave results in better performance compared to an equivalent model with all communication removed.
- Abstract(参考訳): 大規模言語モデル(LLM)の分散推論は、NVLINKのような高速な相互接続によって接続されたGPUでも最大20%のオーバーヘッドを発生させることができる。
計算をよりきめ細かなタスクに分解し、タスクの完了時にサブタスクとの通信を重複させることにより、これらのオーバーヘッドを軽減するために複数の手法が提案されている。
しかし、GPU上の多くの小さな計算に大きめの計算を分解すると、オーバーヘッドが発生する。
さらに、通信自体は多くのストリーミングマルチプロセッサ(SM)を使用し、オーバーヘッドを増大させる。
これらの課題に対処するため、TokenWeaveを紹介します。
TokenWeaveは、推論バッチ内のトークンを、ウェーブアウェアで2つのほぼ等しいサブセットに分割するToken-Splitting手法を提案する。
1つのサブセットの計算は、もう1つのサブセットの通信と重なる。
さらに、TokenWeaveは、通信操作に関するレイヤ正規化計算の順序を最適化し、NVIDIA Hopper GPUで利用可能なMultimem命令サポートを慎重に活用する新しいFused AllReduce-RMSNormカーネルを実装している。
これらの最適化により、TokenWeaveは通信とRMSNormをわずか2-8 SMで実行できる。
さらに、カーネルは、メモリバウンドなRMSNormを、他のバッチの計算と重複させることで、さらなるゲインを提供する。
私たちの評価では、複数のモデルやワークロードで29%のレイテンシ向上、最大26%のスループット向上を実現しています。
いくつかの設定では、TokenWeaveは、すべての通信を削除した同等のモデルと比較して、パフォーマンスが向上する。
関連論文リスト
- Splitwiser: Efficient LM inference with constrained resources [0.29260385019352086]
Splitwiserは、LLM推論要求の2つのフェーズを同じGPUに分割する方法論である。
デバイス間でデータを転送する必要をなくすことで、Splitwiserはネットワーク関連のオーバーヘッドを最小限にすることを目指している。
本稿では,Huggingface と vLLM という,広く使用されている2つの独立した LLM アーキテクチャ上でのマルチプロセッシング設計を実装した。
論文 参考訳(メタデータ) (2025-04-21T00:21:08Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。