Fugu-MT 論文翻訳(概要): SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs

論文の概要: SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs

arxiv url: http://arxiv.org/abs/2502.12444v1
Date: Tue, 18 Feb 2025 02:26:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.731436
Title: SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs
Title（参考訳）: SparAMX: AMX搭載CPU上での圧縮LDM生成の高速化
Authors: Ahmed F. AbouElhamayed, Jordan Dotzel, Yash Akhauri, Chi-Chih Chang, Sameh Gobriel, J. Pablo Muñoz, Vui Seng Chua, Nilesh Jain, Mohamed S. Abdelfattah,
Abstract要約: 大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
参考スコア（独自算出の注目度）: 5.760049762453579
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have high compute, latency, and memory requirements. While specialized accelerators such as GPUs and TPUs typically run these workloads, CPUs are more widely available and consume less energy. Accelerating LLMs with CPUs enables broader AI access at a lower cost and power consumption. This acceleration potential for CPUs is especially relevant during the memory-bound decoding stage of LLM inference, which processes one token at a time and is becoming increasingly utilized with reasoning models. We utilize Advanced Matrix Extensions (AMX) support on the latest Intel CPUs together with unstructured sparsity to achieve a $1.42 \times$ reduction in end-to-end latency compared to the current PyTorch implementation by applying our technique in linear layers. We provide a set of open-source customized sparse kernels that can speed up any PyTorch model by automatically replacing all linear layers with our custom sparse implementation. Furthermore, we demonstrate for the first time the use of unstructured sparsity in the attention computation achieving a $1.14 \times$ speedup over the current systems without compromising accuracy. Code: https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning/tree/main/SparAMX
Abstract（参考訳）: 大規模言語モデルは高い計算量、レイテンシ、メモリ要求を持つ。 GPUやTPUといった特別なアクセラレータは一般的にこれらのワークロードを実行するが、CPUはより広く利用でき、エネルギー消費量も少ない。 LLMをCPUで高速化することで、より広いAIアクセスを低コストで、消費電力で実現する。このCPUの加速ポテンシャルは、LLM推論のメモリバウンド復号段階において特に重要であり、1つのトークンを一度に処理し、推論モデルによってますます利用されつつある。我々は、最新のIntel CPUにおけるAdvanced Matrix Extensions (AMX) サポートと非構造化のスパーシリティを利用して、我々の技術を線形層に適用することで、現在のPyTorch実装と比較して、エンド・ツー・エンドのレイテンシの1.42 \times$削減を実現した。オープンソースでカスタマイズされたスパースカーネルのセットを提供し、すべてのリニアレイヤをカスタムスパース実装に自動的に置き換えることで、任意のPyTorchモデルを高速化できます。さらに、注意計算における非構造化空間の利用を、精度を損なうことなく、現在のシステム上での1.14 \times$スピードアップを達成したことを初めて示す。コード:https://github.com/IntelLabs/Hardware-Aware-Aware-Automated-Machine-Learning/tree/main/SparAMX

関連論文リスト

Glinthawk: A Two-Tiered Architecture for Offline LLM Inference [2.6498598849144472]
Glinthawkは、オフラインのLarge Language Model(LLM)推論のためのアーキテクチャである。スループットを5.9倍に改善し、生成コストを2.8倍に削減する。評価の結果,このアーキテクチャは性能劣化を最小限に抑えつつ,適度なネットワーク遅延を許容できることがわかった。
論文参考訳（メタデータ） (2025-01-20T23:10:13Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文参考訳（メタデータ） (2023-11-16T18:58:43Z)
Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。 LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-11-01T13:08:50Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
An Efficient Sparse Inference Software Accelerator for Transformer-based Language Models on CPUs [12.883586189626431]
トランスフォーマーベースの言語モデルは、自然言語処理タスクの標準的なアプローチとなっている。既存のほとんどのニューラルネットワーク推論ランタイムは、構造化されたスパーシリティを適切にサポートしていない。本稿では,トランスフォーマーに基づく言語モデルのための効率的なスパース深層学習ソフトウェアスタックを提案する。
論文参考訳（メタデータ） (2023-06-28T23:55:51Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文参考訳（メタデータ） (2023-03-29T20:00:19Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile Acceleration on CPUs [7.807134159136234]
この研究は、高密度マトリックスエンジン上でのISAおよびマイクロアーキテクチャ拡張の集合であるVEGETAを示し、CPUの柔軟な構造的空間性をサポートする。 VEGETAエンジンは、4:4 (dense), 2:4, 1:4, and unstructured sparse Layerを実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。
論文参考訳（メタデータ） (2023-02-17T04:35:58Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
RASA: Efficient Register-Aware Systolic Array Matrix Engine for CPU [6.436294460697506]
RASA, Register-Aware Systolic Arrayを提案する。我々は,実行段階を複数のサブステージに分割し,命令を重複させてオーバーヘッドを隠蔽し,同時に実行する手法を開発した。 RASAをベースとした設計では、無視できる面積と電力オーバーヘッドで性能が大幅に向上した。
論文参考訳（メタデータ） (2021-10-05T00:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。