論文の概要: Serving Large Language Models on Huawei CloudMatrix384
- arxiv url: http://arxiv.org/abs/2506.12708v2
- Date: Wed, 18 Jun 2025 10:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 13:10:45.357258
- Title: Serving Large Language Models on Huawei CloudMatrix384
- Title(参考訳): Huawei CloudMatrix384上での大規模言語モデルの実現
- Authors: Pengfei Zuo, Huimin Lin, Junbo Deng, Nan Zou, Xingkun Yang, Yingyu Diao, Weifeng Gao, Ke Xu, Zhangyu Chen, Shirui Lu, Zhao Qiu, Peiyang Li, Xianyu Chang, Zhengzhong Yu, Fangzheng Miao, Jia Zheng, Ying Li, Yuan Feng, Bei Wang, Zaijian Zong, Mosong Zhou, Wenli Zhou, Houjiang Chen, Xingyu Liao, Yipeng Li, Wenxiao Zhang, Ping Zhu, Yinggang Wang, Chuanjie Xiao, Depeng Liang, Dong Cao, Juncheng Liu, Yongqiang Yang, Xiaolong Bai, Yi Li, Huaguo Xie, Huatao Wu, Zhibin Yu, Lv Chen, Hu Liu, Yujun Ding, Haipei Zhu, Jing Xia, Yi Xiong, Zhou Yu, Heng Liao,
- Abstract要約: 従来のAIクラスタは、計算強度、メモリ帯域幅、チップ間通信、レイテンシの制限に直面している。
本稿では,Huawei CloudMatrixを紹介する。Huawei CloudMatrixは,プロダクショングレードのCloudMatrix384スーパーノードで実現された次世代AIアーキテクチャである。
384 Ascend 910C NPUと192 Kunpeng CPUを統合し、UB(Ultra-bandwidth Unified Bus)ネットワークを介して相互接続する。
- 参考スコア(独自算出の注目度): 28.88558053380112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of large language models (LLMs), driven by growing parameter scales, adoption of mixture-of-experts (MoE) architectures, and expanding context lengths, imposes unprecedented demands on AI infrastructure. Traditional AI clusters face limitations in compute intensity, memory bandwidth, inter-chip communication, and latency, compounded by variable workloads and strict service-level objectives. Addressing these issues requires fundamentally redesigned hardware-software integration. This paper introduces Huawei CloudMatrix, a next-generation AI datacenter architecture, realized in the production-grade CloudMatrix384 supernode. It integrates 384 Ascend 910C NPUs and 192 Kunpeng CPUs interconnected via an ultra-high-bandwidth Unified Bus (UB) network, enabling direct all-to-all communication and dynamic pooling of resources. These features optimize performance for communication-intensive operations, such as large-scale MoE expert parallelism and distributed key-value cache access. To fully leverage CloudMatrix384, we propose CloudMatrix-Infer, an advanced LLM serving solution incorporating three core innovations: a peer-to-peer serving architecture that independently scales prefill, decode, and caching; a large-scale expert parallelism strategy supporting EP320 via efficient UB-based token dispatch; and hardware-aware optimizations including specialized operators, microbatch-based pipelining, and INT8 quantization. Evaluation with the DeepSeek-R1 model shows CloudMatrix-Infer achieves state-of-the-art efficiency: prefill throughput of 6,688 tokens/s per NPU and decode throughput of 1,943 tokens/s per NPU (<50 ms TPOT). It effectively balances throughput and latency, sustaining 538 tokens/s per NPU even under stringent 15 ms latency constraints, while INT8 quantization maintains model accuracy across benchmarks.
- Abstract(参考訳): 大きな言語モデル(LLM)の急速な進化は、パラメータスケールの増大、Mix-of-Experts(MoE)アーキテクチャの採用、コンテキスト長の拡大など、AIインフラストラクチャに対する前例のない要求を課している。
従来のAIクラスタは、計算強度、メモリ帯域幅、チップ間通信、レイテンシの制限に直面している。
これらの問題に対処するには、ハードウェアとソフトウェアの統合を根本的に再設計する必要がある。
本稿では,次世代のAIデータセンタアーキテクチャであるHuawei CloudMatrixを紹介し,実運用レベルのCloudMatrix384スーパーノードで実現した。
384 Ascend 910C NPUと192 Kunpeng CPUを統合し、UB(Ultra-bandwidth Unified Bus)ネットワークを介して相互接続する。
これらの機能は、大規模なMoEエキスパート並列処理や分散キーバリューキャッシュアクセスなど、通信集約操作のパフォーマンスを最適化する。
CloudMatrix384をフル活用するために、CloudMatrix-Inferという3つのコアイノベーションを取り入れた高度なLCMサービスソリューションを提案する。プリフィル、デコード、キャッシュを独立にスケールするピアツーピアサービスアーキテクチャ、効率的なUBベースのトークンディスパッチによるEP320をサポートする大規模なエキスパート並列化戦略、特殊演算子、マイクロバッチベースのパイプライニング、INT8量子化などである。
DeepSeek-R1モデルによる評価では、CloudMatrix-Inferは、NPU毎の6,688トークン/秒のプリフィルスループットと、NPU毎の1,943トークン/秒のデコードスループット(50ms TPOT)という最先端の効率を実現している。
スループットとレイテンシを効果的にバランスさせ、15ミリ秒の遅延制約の下でもNPU当たり538トークン/秒を持続する一方、INT8量子化はベンチマーク全体のモデル精度を維持する。
関連論文リスト
- FFN Fusion: Rethinking Sequential Computation in Large Language Models [16.8637819797503]
本稿では,大規模言語モデルにおける逐次計算を減らしたアーキテクチャ最適化手法であるFFN Fusionを紹介する。
我々は、このようなシーケンスを同定し、融合し、それらを並列操作に変換するための、原則化された方法論を開発した。
これらの手法をLlama-3.1-405B-Instructに適用することにより、推論遅延の1.71倍の高速化と、トークンあたりのコストの35倍の削減を実現する、効率的かつ間もなく公開されるモデルを構築する。
論文 参考訳(メタデータ) (2025-03-24T17:20:35Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Hyperdimensional Computing Empowered Federated Foundation Model over Wireless Networks for Metaverse [56.384390765357004]
本稿では,新しい基礎モデルのための統合型分割学習と超次元計算フレームワークを提案する。
この新しいアプローチは通信コスト、計算負荷、プライバシーリスクを低減し、Metaverseのリソース制約されたエッジデバイスに適している。
論文 参考訳(メタデータ) (2024-08-26T17:03:14Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Reconfigurable co-processor architecture with limited numerical
precision to accelerate deep convolutional neural networks [0.38848561367220275]
畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。
本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。
既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
論文 参考訳(メタデータ) (2021-08-21T09:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。