論文の概要: LLM Inference Beyond a Single Node: From Bottlenecks to Mitigations with Fast All-Reduce Communication
- arxiv url: http://arxiv.org/abs/2511.09557v1
- Date: Thu, 13 Nov 2025 02:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.623802
- Title: LLM Inference Beyond a Single Node: From Bottlenecks to Mitigations with Fast All-Reduce Communication
- Title(参考訳): 単一ノードを越えたLLM推論:高速なオールプロデューサ通信によるボットネックから緩和
- Authors: Prajwal Singhania, Siddharth Singh, Lannie Dalton Hough, Akarsh Srivastava, Harshitha Menon, Charles Fredrick Jekel, Abhinav Bhatele,
- Abstract要約: 本稿では,GPU ベースのスーパーコンピュータ上での大規模言語モデル (LLM) を用いたマルチノード分散推論の性能評価を行った。
制御実験用に設計された研究指向のプロトタイプエンジンであるYALISとともに,いくつかの最先端推論エンジンを用いて実験を行う。
- 参考スコア(独自算出の注目度): 5.468224958799568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to grow in size, distributed inference has become increasingly important. Model-parallel strategies must now efficiently scale not only across multiple GPUs but also across multiple nodes. In this work, we present a detailed performance study of multi-node distributed inference using LLMs on GPU-based supercomputers. We conduct experiments with several state-of-the-art inference engines alongside YALIS, a research-oriented prototype engine designed for controlled experimentation. We analyze the strong-scaling behavior of different model-parallel schemes and identify key bottlenecks. Since all-reduce operations are a common performance bottleneck, we develop NVRAR, a hierarchical all-reduce algorithm based on recursive doubling with NVSHMEM. NVRAR achieves up to 1.9x-3.6x lower latency than NCCL for message sizes between 128 KB and 2 MB on HPE Slingshot and InfiniBand interconnects. Integrated into YALIS, NVRAR achieves up to a 1.72x reduction in end-to-end batch latency for the Llama 3.1 405B model in multi-node decode-heavy workloads using tensor parallelism.
- Abstract(参考訳): 大規模言語モデル(LLM)のサイズが拡大するにつれ、分散推論がますます重要になっている。
モデル並列戦略は、複数のGPUだけでなく、複数のノードにわたって効率的にスケールする必要がある。
本稿では,GPU ベースのスーパーコンピュータ上での LLM を用いたマルチノード分散推論の性能評価について述べる。
制御実験用に設計された研究指向のプロトタイプエンジンであるYALISとともに,いくつかの最先端推論エンジンを用いて実験を行う。
我々は、異なるモデル並列スキームの強スケーリング挙動を分析し、重要なボトルネックを特定する。
そこで我々は,NVSHMEMによる再帰倍率に基づく階層的全再現アルゴリズムであるNVRARを開発する。
NVRARは、HPE SlingshotとInfiniBandの相互接続で128KBから2MBのメッセージサイズでNCCLよりも最大1.9x-3.6倍のレイテンシを実現する。
YALISに統合されたNVRARは、テンソル並列性を用いたマルチノードのデコード重大ワークロードにおいて、Llama 3.1 405Bモデルのエンドツーエンドのバッチレイテンシを最大1.72倍に削減する。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。