Fugu-MT 論文翻訳(概要): Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures

論文の概要: Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures

arxiv url: http://arxiv.org/abs/2504.11750v1
Date: Wed, 16 Apr 2025 04:02:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 22:00:19.7913
Title: Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures
Title（参考訳）: CPU-GPU結合アーキテクチャにおけるLLM推論ワークロードの特性と最適化
Authors: Prabhu Vellaisamy, Thomas Labonte, Sourav Chakraborty, Matt Turner, Samantika Sury, John Paul Shen,
Abstract要約: 大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システムにおける推論挙動の詳細な解析を行う。
参考スコア（独自算出の注目度）: 3.2645124275315163
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model (LLM)-based inference workloads increasingly dominate data center costs and resource utilization. Therefore, understanding the inference workload characteristics on evolving CPU-GPU coupled architectures is crucial for optimization. This paper presents an in-depth analysis of LLM inference behavior on loosely-coupled (PCIe A100/H100) and closely-coupled (GH200) systems. We analyze performance dynamics using fine-grained operator-to-kernel trace analysis, facilitated by our novel profiler SKIP and metrics like Total Kernel Launch and Queuing Time (TKLQT). Results show that closely-coupled (CC) GH200 significantly outperforms loosely-coupled (LC) systems at large batch sizes, achieving 1.9x-2.7x faster prefill latency for Llama 3.2-1B. However, our analysis also reveals that GH200 remains CPU-bound up to 4x larger batch sizes than LC systems. In this extended CPU-bound region, we identify the performance characteristics of the Grace CPU as a key factor contributing to higher inference latency at low batch sizes on GH200. We demonstrate that TKLQT accurately identifies this CPU/GPU-bound transition point. Based on this analysis, we further show that kernel fusion offers significant potential to mitigate GH200's low-batch latency bottleneck by reducing kernel launch overhead. This detailed kernel-level characterization provides critical insights for optimizing diverse CPU-GPU coupling strategies. This work is an initial effort, and we plan to explore other major AI/DL workloads that demand different degrees of CPU-GPU heterogeneous architectures.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースの推論ワークロードは、データセンターのコストとリソース利用をますます支配している。したがって、CPU-GPU結合アーキテクチャの進化における推論ワークロード特性の理解は、最適化に不可欠である。本稿では, 疎結合(PCIe A100/H100) および密結合(GH200) システム上でのLLM推論挙動の詳細な解析を行う。我々は,新しいプロファイラであるSKIPとTotal Kernel Launch and Queuing Time (TKLQT) などのメトリクスを用いて,微粒な演算子-カーネルトレース解析を用いて性能動態を解析した。その結果、密結合(CC) GH200は、Llama 3.2-1Bの1.9x-2.7倍高速なプリフィル遅延を達成し、大きなバッチサイズで疎結合(LC)システムよりも大幅に優れていた。しかし,解析の結果,GH200はLCシステムに比べて最大4倍のバッチサイズであることがわかった。この拡張CPUバウンド領域では、GH200上での低バッチサイズでの推論遅延の増大に寄与する主要な要因として、グレースCPUの性能特性を同定する。我々は、TKLQTがこのCPU/GPUバウンド遷移点を正確に識別することを示した。この分析に基づいて、カーネルの核融合は、カーネルの起動オーバーヘッドを減らすことにより、GH200の低バッチ遅延ボトルネックを緩和する大きな可能性をも示している。このカーネルレベルのキャラクタリゼーションは、多様なCPU-GPU結合戦略を最適化するための重要な洞察を提供する。この作業は最初の取り組みであり、さまざまなCPU-GPU異種アーキテクチャを必要とする他の主要なAI/DLワークロードについても検討する予定です。

関連論文リスト

MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文参考訳（メタデータ） (2024-03-26T11:38:39Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
The Architectural Implications of Distributed Reinforcement Learning on CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文参考訳（メタデータ） (2020-12-08T04:50:05Z)
Optimizing Deep Learning Recommender Systems' Training On CPU Cluster Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。 HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文参考訳（メタデータ） (2020-05-10T14:40:16Z)
Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文参考訳（メタデータ） (2020-04-19T05:21:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。