Fugu-MT 論文翻訳(概要): A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving

論文の概要: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving

arxiv url: http://arxiv.org/abs/2504.12984v1
Date: Thu, 17 Apr 2025 14:45:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 18:32:01.044464
Title: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving
Title（参考訳）: LLMにおける任意高精度GPGPU計算用仮想マシン
Authors: Yaoyao Ding, Bohan Hou, Xiao Zhang, Allan Lin, Tianqi Chen, Cody Yu Hao, Yida Wang, Gennady Pekhimenko,
Abstract要約: Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
参考スコア（独自算出の注目度）: 12.068287973463786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Serving Large Language Models (LLMs) is critical for AI-powered applications but demands substantial computational resources, particularly in memory bandwidth and computational throughput. Low-precision computation has emerged as a key technique to improve efficiency while reducing resource consumption. Existing approaches for generating low-precision kernels are limited to weight bit widths that are powers of two and suffer from suboptimal performance due to high-level GPU programming abstractions. These abstractions restrict critical optimizations, such as fine-grained register management and optimized memory access patterns, which are essential for efficient low-precision computations. In this paper, we introduce a virtual machine (VM) designed for General-Purpose GPU (GPGPU) computing, enabling support for low-precision data types with arbitrary bit widths while maintaining GPU programmability. The proposed VM features a thread-block-level programming model, a hierarchical memory space, a novel algebraic layout system, and extensive support for diverse low-precision data types. VM programs are compiled into highly efficient GPU programs with automatic vectorization and instruction selection. Extensive experiments demonstrate that our VM efficiently supports a full spectrum of low-precision data types, and outperforms state-of-the-art low-precision kernels on their supported types. Compared to existing compilers like Triton and Ladder, as well as hand-optimized kernels such as QuantLLM and Marlin, our VM achieves performance improvements of 1.75x, 2.61x, 1.29x and 1.03x, respectively.
Abstract（参考訳）: Serving Large Language Models (LLMs) はAIを利用したアプリケーションには不可欠だが、特にメモリ帯域幅と計算スループットにおいて、かなりの計算資源を必要とする。低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。低精度カーネルを生成するための既存のアプローチは、2のパワーを持つ重み付きビット幅に限られており、GPUプログラミングの抽象化によって最適化性能に悩まされている。これらの抽象化は、レジスタ管理の微粒化やメモリアクセスパターンの最適化といった、効率的な低精度計算に不可欠な重要な最適化を制限している。本稿では,汎用GPU(GPGPU)コンピューティング用に設計された仮想マシン(VM)を提案する。提案したVMは、スレッドブロックレベルのプログラミングモデル、階層型メモリ空間、新しい代数的レイアウトシステム、多様な低精度データタイプに対する広範なサポートを備えている。 VMプログラムは、自動ベクトル化と命令選択を備えた高効率GPUプログラムにコンパイルされる。大規模な実験により、我々のVMは低精度データ型の全スペクトルを効率的にサポートし、サポート対象のタイプで最先端の低精度カーネルより優れています。 TritonやLadderといった既存のコンパイラやQuantLLMやMarlinといった手動最適化カーネルと比較すると,VMはそれぞれ1.75x,2.61x,1.29x,1.03xのパフォーマンス向上を実現しています。

関連論文リスト

BiVM: Accurate Binarized Neural Network for Efficient Video Matting [56.000594826508504]
リアルタイムビデオマッチングのためのディープニューラルネットワークは、エッジデバイスに重大な計算制限を被る。ビデオマッティングのための正確でリソース効率のよいバイナリニューラルネットワークであるBiVMを提案する。 BiVMは、最先端(SOTA)バイナライゼーション手法を含む、代替のバイナライズされたビデオマッティングネットワークをかなり上回っている。
論文参考訳（メタデータ） (2025-07-06T16:32:37Z)
HGCA: Hybrid GPU-CPU Attention for Long Context LLM Inference [8.826966369389893]
大規模言語モデルのためのハイブリッドCPU-GPUアテンション機構であるHGCAを提案する。我々はHGCAが優れたスケーラビリティを実現し、より長いシーケンスとより大きなバッチサイズをサポートし、性能と正確性の両方において、既存の疎い注意基準よりも優れていることを示す。さまざまなモデルとワークロードにわたる実験によると、HGCAは優れたスケーラビリティを実現し、長いシーケンスとより大きなバッチサイズをサポートし、パフォーマンスと正確性の両方において、既存のスパースアテンションベースラインを上回っている。
論文参考訳（メタデータ） (2025-07-03T20:20:33Z)
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Support Vector Machine Implementation on MPI-CUDA and Tensorflow Framework [0.0]
Support Vector Machine (SVM)アルゴリズムは、複雑な二次プログラミング(QP)最適化問題を解決するために高い計算コストを必要とする。並列マルチアーキテクチャは、マルチコアCPUと高度にスケーラブルなGPUの両方で利用できる。本稿では,異なる並列アーキテクチャフレームワーク上でSVMアルゴリズムを実装した比較研究を行う。
論文参考訳（メタデータ） (2023-11-25T02:52:37Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
PowerFusion: A Tensor Compiler with Explicit Data Movement Description and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。 IntelliGenは計算とデータ移動の最適化の両方を考慮する。 NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文参考訳（メタデータ） (2023-07-11T03:17:40Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。