論文の概要: APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration
- arxiv url: http://arxiv.org/abs/2508.19087v1
- Date: Tue, 26 Aug 2025 14:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.888867
- Title: APT-LLM: Exploiting Arbitrary-Precision Tensor Core Computing for LLM Acceleration
- Title(参考訳): APT-LLM: LLM加速のための任意精度テンソルコアコンピューティングの爆発
- Authors: Shaobo Ma, Chao Fang, Haikuo Shao, Zhongfeng Wang,
- Abstract要約: 大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
これは主にGPU Coreの限定的なサポート、非効率なメモリ管理、非フレキシブルなカーネル最適化が原因である。
本稿では,任意の精度のLLM,すなわちAPT-LLMに対する包括的加速法を提案する。
- 参考スコア(独自算出の注目度): 5.075697428779204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized AI applications, yet their enormous computational demands severely limit deployment and real-time performance. Quantization methods can help reduce computational costs, however, attaining the extreme efficiency associated with ultra-low-bit quantized LLMs at arbitrary precision presents challenges on GPUs. This is primarily due to the limited support for GPU Tensor Cores, inefficient memory management, and inflexible kernel optimizations. To tackle these challenges, we propose a comprehensive acceleration scheme for arbitrary precision LLMs, namely APT-LLM. Firstly, we introduce a novel data format, bipolar-INT, which allows for efficient and lossless conversion with signed INT, while also being more conducive to parallel computation. We also develop a matrix multiplication (MatMul) method allowing for arbitrary precision by dismantling and reassembling matrices at the bit level. This method provides flexible precision and optimizes the utilization of GPU Tensor Cores. In addition, we propose a memory management system focused on data recovery, which strategically employs fast shared memory to substantially increase kernel execution speed and reduce memory access latency. Finally, we develop a kernel mapping method that dynamically selects the optimal configurable hyperparameters of kernels for varying matrix sizes, enabling optimal performance across different LLM architectures and precision settings. In LLM inference, APT-LLM achieves up to a 3.99$\times$ speedup compared to FP16 baselines and a 2.16$\times$ speedup over NVIDIA CUTLASS INT4 acceleration on RTX 3090. On RTX 4090 and H800, APT-LLM achieves up to 2.44$\times$ speedup over FP16 and 1.65$\times$ speedup over CUTLASS integer baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIアプリケーションに革命をもたらしたが、その膨大な計算要求は、デプロイメントとリアルタイムのパフォーマンスを著しく制限している。
量子化法は計算コストの削減に有効であるが、超低ビット量子化LDMに付随する極端に効率が良く、任意の精度でGPUに挑戦する。
これは主にGPU Tensor Cores、非効率なメモリ管理、非フレキシブルカーネル最適化のサポートが制限されているためである。
これらの課題に対処するために、任意の精度のLCM、すなわちAPT-LLMの総合的な加速度スキームを提案する。
まず,新しいデータ形式であるbipolar-INTを導入し,符号付きINTで効率よく,ロスレスな変換を実現する。
また,行列をビットレベルで分解・再組み立てすることで任意の精度で行列乗法(MatMul)を開発する。
この方法はフレキシブルな精度を提供し、GPUテンソルコアの利用を最適化する。
さらに,高速共有メモリを戦略的に活用し,カーネル実行速度を大幅に向上し,メモリアクセス遅延を低減する,データリカバリに着目したメモリ管理システムを提案する。
最後に,カーネルの最適設定可能なハイパーパラメータを動的に選択し,異なるLLMアーキテクチャと精度設定で最適な性能を実現するカーネルマッピング手法を開発した。
LLM推論では、ATT-LLMはFP16ベースラインと比較して最大3.99$\times$スピードアップ、RTX 3090上のNVIDIA CUTLASS INT4アクセラレーションよりも2.16$\times$スピードアップを達成する。
RTX 4090とH800では、APT-LLMはFP16よりも2.44$\times$スピードアップ、CUTLASSの整数ベースラインより1.65$\times$スピードアップを達成する。
関連論文リスト
- Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving [12.068287973463786]
Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。
低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。
低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
論文 参考訳(メタデータ) (2025-04-17T14:45:03Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。