論文の概要: From Principles to Practice: A Systematic Study of LLM Serving on Multi-core NPUs
- arxiv url: http://arxiv.org/abs/2510.05632v1
- Date: Tue, 07 Oct 2025 07:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.138463
- Title: From Principles to Practice: A Systematic Study of LLM Serving on Multi-core NPUs
- Title(参考訳): 原則から実践へ:マルチコアNPU上でのLDMの体系的研究
- Authors: Tianhao Zhu, Dahu Feng, Erhu Feng, Yubin Xia,
- Abstract要約: Google TPU、Huawei NPU、Graphcore IPU、Cerebras WSEなど、AIアクセラレータの数が増えている。
これらのアクセラレータのほとんどは拡張スケーラビリティを実現するためにマルチコアアーキテクチャを採用しているが、SIMTアーキテクチャの柔軟性は欠如している。
マルチコアNPUのトランザクションレベルと性能モデルに基づくシミュレーションを併用したマルチレベルシミュレーションフレームワークを提案する。
ハードウェア構成の異なるマルチコアNPUのためのSOTA設計と比較して,我々は1.32x-6.03xの高速化を実現している。
- 参考スコア(独自算出の注目度): 4.385504263479341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread adoption of Large Language Models (LLMs), the demand for high-performance LLM inference services continues to grow. To meet this demand, a growing number of AI accelerators have been proposed, such as Google TPU, Huawei NPU, Graphcore IPU, and Cerebras WSE, etc. Most of these accelerators adopt multi-core architectures to achieve enhanced scalability, but lack the flexibility of SIMT architectures. Therefore, without careful configuration of the hardware architecture, as well as deliberate design of tensor parallelism and core placement strategies, computational resources may be underutilized, resulting in suboptimal inference performance. To address these challenges, we first present a multi-level simulation framework with both transaction-level and performance-model-based simulation for multi-core NPUs. Using this simulator, we conduct a systematic analysis and further propose the optimal solutions for tensor parallelism strategies, core placement policies, memory management methods, as well as the selection between PD-disaggregation and PD-fusion on multi-core NPUs. We conduct comprehensive experiments on representative LLMs and various NPU configurations. The evaluation results demonstrate that, our solution can achieve 1.32x-6.03x speedup compared to SOTA designs for multi-core NPUs across different hardware configurations. As for LLM serving, our work offers guidance on designing optimal hardware architectures and serving strategies for multi-core NPUs across various LLM workloads.
- Abstract(参考訳): LLM(Large Language Models)の普及に伴い、高性能なLLM推論サービスの需要が高まっている。
この要求を満たすために、Google TPU、Huawei NPU、Graphcore IPU、Cerebras WSEなど、AIアクセラレータが増えている。
これらのアクセラレータのほとんどは拡張スケーラビリティを実現するためにマルチコアアーキテクチャを採用しているが、SIMTアーキテクチャの柔軟性は欠如している。
したがって、ハードウェアアーキテクチャの慎重に構成したり、テンソル並列性やコア配置戦略を意図的に設計したりすることなく、計算資源を未利用にし、最適以下の推論性能が得られる。
これらの課題に対処するために、まず、マルチコアNPUのためのトランザクションレベルとパフォーマンスモデルに基づくシミュレーションを併用したマルチレベルシミュレーションフレームワークを提案する。
本シミュレータを用いて,マルチコアNPU上でのPD分散とPD融合の選択だけでなく,テンソル並列化戦略,コア配置ポリシー,メモリ管理手法の最適解を提案する。
代表LLMと各種NPU構成に関する総合的な実験を行う。
評価結果から,ハードウェア構成の異なるマルチコアNPUのSOTA設計と比較して1.32x-6.03xの高速化を実現することができた。
LLM提供に関しては,最適ハードウェアアーキテクチャの設計と,多コアNPUのさまざまなLLMワークロードに対するサービス戦略に関するガイダンスを提供する。
関連論文リスト
- LM-Searcher: Cross-domain Neural Architecture Search with LLMs via Unified Numerical Encoding [55.5535016040221]
LM-Searcherは、クロスドメインニューラルネットワーク最適化のための新しいフレームワークである。
我々のアプローチの中心は、ニューラルネットワークのための普遍的な数値文字列表現であるNCodeである。
我々のデータセットは、幅広いアーキテクチャとパフォーマンスのペアを含み、堅牢で伝達可能な学習を促進する。
論文 参考訳(メタデータ) (2025-09-06T09:26:39Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。