論文の概要: DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72
- arxiv url: http://arxiv.org/abs/2604.01621v1
- Date: Thu, 02 Apr 2026 05:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.36539
- Title: DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72
- Title(参考訳): DWDP:NVL72上での高性能LLM推論のための分散重みデータ並列性
- Authors: Wanqian Li, Jintao Peng, Zongfei Jing, Tianyu Zhang, Ze Long, Xianjie Qiao, Xiaoming Chen, Dongxu Yang, Kefeng Duan, June Yang,
- Abstract要約: DWDP(Distributed Weight Data Parallelism)は、ピアGPU間でMoE重みをオフロードしながら、データ並列実行を保存する推論並列化戦略である。
さらに、分割重み管理と非同期リモート重み前処理の2つの最適化により、この設計の現実的なオーバーヘッドに対処する。
- 参考スコア(独自算出の注目度): 8.366071694080269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) inference increasingly depends on multi-GPU execution, yet existing inference parallelization strategies require layer-wise inter-rank synchronization, making end-to-end performance sensitive to workload imbalance. We present DWDP (Distributed Weight Data Parallelism), an inference parallelization strategy that preserves data-parallel execution while offloading MoE weights across peer GPUs and fetching missing experts on demand. By removing collective inter-rank synchronization, DWDP allows each GPU to progress independently. We further address the practical overheads of this design with two optimizations for split-weight management and asynchronous remote-weight prefetch. Implemented in TensorRT-LLM and evaluated with DeepSeek-R1 on GB200 NVL72, DWDP improves end-to-end output TPS/GPU by 8.8% at comparable TPS/user in the 20-100 TPS/user serving range under 8K input sequence length and 1K output sequence length.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論は、ますますマルチGPUの実行に依存しているが、既存の推論並列化戦略では層単位での同期が必要であり、エンドツーエンドのパフォーマンスはワークロードの不均衡に敏感になる。
DWDP(Distributed Weight Data Parallelism)は、ピアGPU間でMoE重みをオフロードしながらデータ並列実行を保存し、要求に応じて不足した専門家を引き出す推論並列化戦略である。
集合的なランク間の同期を取り除くことで、DWDPは各GPUを独立して前進させることができる。
さらに、分割重み管理と非同期リモート重み前処理の2つの最適化により、この設計の現実的なオーバーヘッドに対処する。
TensorRT-LLMで実装され、GB200 NVL72でDeepSeek-R1で評価されたDWDPは、20-100 TPS/userで8K入力シーケンス長と1K出力シーケンス長で、エンドツーエンドのTPS/GPUを8.8%改善した。
関連論文リスト
- LLM Inference Beyond a Single Node: From Bottlenecks to Mitigations with Fast All-Reduce Communication [5.468224958799568]
本稿では,GPU ベースのスーパーコンピュータ上での大規模言語モデル (LLM) を用いたマルチノード分散推論の性能評価を行った。
制御実験用に設計された研究指向のプロトタイプエンジンであるYALISとともに,いくつかの最先端推論エンジンを用いて実験を行う。
論文 参考訳(メタデータ) (2025-11-12T18:59:26Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill and Decode Inference [48.40143137402824]
MLA(Multi-Head Latent Attention)は、キー値の状態を低ランクの潜在ベクトルに圧縮し、このベクトルだけをキャッシュしてメモリを減少させる。
しかし、テンソル並列性(TP)では、アテンションヘッドは複数のデバイスにまたがって計算され、各デバイスはフルキャッシュをロードしなければならない。
本稿では,潜在表現と各頭部の入力次元をデバイス間で分割し,シャード毎に独立して注目を行い,結果を全再現と組み合わせる方式であるTPLAを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:25:40Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。
LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文 参考訳(メタデータ) (2025-07-03T22:53:34Z) - Communication-Efficient, 2D Parallel Stochastic Gradient Descent for Distributed-Memory Optimization [2.2596489829928452]
この研究は、1D $s$-step SGD と Averaging (FedAvg) を用いた 1D Federated SGD の作業を一般化し、2D 並列 SGD 法 (HybridSGD) を生成する。
C++ と MPI で全てのアルゴリズムを実装し,Cray EX スーパーコンピュータシステム上での性能評価を行う。
論文 参考訳(メタデータ) (2025-01-13T17:56:39Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - FlexLLM: Token-Level Co-Serving of LLM Inference and Finetuning with SLO Guarantees [19.58773369944074]
タスク適応には、大規模な言語モデル(LLM)の微調整が不可欠だが、今日のサービススタックは、推論と個別のGPUクラスタ上での微調整を分離している。
本稿では,LLM推論とPEFTに基づく共通GPUのファインタニングをトークンレベルで融合した最初のシステムであるFlexLLMを紹介する。
実行時に、新しいトークンレベルの微調整機構がハイブリッドトークンスケジューラと組み合わせて、共用イテレーション毎に推論とトレーニングトークンを動的にインターリーブする。
論文 参考訳(メタデータ) (2024-02-29T01:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。