論文の概要: A Flexible Instruction Set Architecture for Efficient GEMMs
- arxiv url: http://arxiv.org/abs/2507.03522v1
- Date: Fri, 04 Jul 2025 12:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.760373
- Title: A Flexible Instruction Set Architecture for Efficient GEMMs
- Title(参考訳): 効率的なGEMMのためのフレキシブルな命令セットアーキテクチャ
- Authors: Alexandre de Limas Santana, Adrià Armejach, Francesc Martinez, Erich Focht, Marc Casas,
- Abstract要約: 本稿では,命令セットアーキテクチャをマイクロアーキテクチャから完全に分離した最初の行列ISAであるマトリックスタイル拡張(MTE)を提案する。
MTEは最高の最先端行列ISAに対して1.35倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 40.50730628494053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GEneral Matrix Multiplications (GEMMs) are recurrent in high-performance computing and deep learning workloads. Typically, high-end CPUs accelerate GEMM workloads with Single-Instruction Multiple Data (SIMD) or vector Instruction Set Architectures (ISAs). Since these ISAs face significant issues when running GEMM workloads, particularly when dealing with small, tall, or skinny matrices, matrix ISAs have been proposed and implemented by major hardware vendors in the last years. Although these matrix ISAs deliver larger throughput when running GEMMs than their SIMD/vector counterparts, they are rigid solutions unable to dynamically adapt themselves to application-specific aspects like the data format. This paper demonstrates that the state-of-the-art matrix ISAs deliver suboptimal performance when running the most commonly used convolution and transformer models. This paper proposes the Matrix Tile Extension (MTE), the first matrix ISA that completely decouples the instruction set architecture from the microarchitecture and seamlessly interacts with existing vector ISAs. MTE incurs minimal implementation overhead since it only requires a few additional instructions and a 64-bit Control Status Register (CSR) to keep its state. Specifically, MTE can i) vectorize GEMMs across the three dimensions M, N, and K; ii) leverage the capacity of the existing vector register file; and iii) decouple the tile shape from the underlying microarchitecture. MTE achieves speed-ups of 1.35x over the best state-of-the-art matrix ISA.
- Abstract(参考訳): GEMM(GEneral Matrix Multiplications)は、高性能コンピューティングとディープラーニングのワークロードで繰り返し実行される。
通常、ハイエンドCPUはGEMMワークロードをSingle-Instruction Multiple Data (SIMD) または vector Instruction Set Architectures (ISA) で加速する。
これらのISAはGEMMワークロードの実行において大きな問題に直面しており、特に小さい、高い、または細い行列を扱う場合、行列ISAはここ数年、主要なハードウェアベンダーによって提案され、実装されてきた。
これらの行列ISAは、GEMMの実行時にSIMD/ベクターよりも大きなスループットを提供するが、データフォーマットのようなアプリケーション固有の側面に動的に適応できない厳密なソリューションである。
本稿では、最先端の行列ISAが、最もよく使われている畳み込みモデルと変圧器モデルを実行する際に、準最適性能を提供することを示す。
本稿では、命令セットアーキテクチャをマイクロアーキテクチャから完全に切り離し、既存のベクトルISAとシームレスに相互作用する最初のマトリックスISAであるマトリックスタイル拡張(MTE)を提案する。
MTEは、いくつかの追加命令と状態を維持するために64ビット制御ステータスレジスタ(CSR)を必要とするため、最小限の実装オーバーヘッドを発生させる。
特にMTEは
一 GEMMをM、N、Kの3次元にわたってベクトル化すること。
二 既存のベクトルレジスタファイルの容量を活用すること。
三 タイル形状を下層のマイクロ構造から切り離すこと。
MTEは最高の最先端行列ISAに対して1.35倍のスピードアップを達成する。
関連論文リスト
- The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference [0.9954176833299684]
ディープラーニング(DL)は、従来の64ビット浮動小数点(FP64)計算から、縮小精度のフォーマットへと変化した。
本稿では,従来のハイパフォーマンスなgemを改訂し,それを混合精度整数算術に適用するための戦略について述べる。
論文 参考訳(メタデータ) (2025-06-13T12:40:16Z) - SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference [10.608817382813786]
混合精度の一般行列乗算は批判的だが未探索の演算である。
現在のハードウェアはmpGEMMをネイティブにサポートしていないため、非効率なdequantizationベースの実装につながっている。
低ビットLLM推論に最適化されたソフトウェアとハードウェアの共同設計ソリューションであるLUT Coreを提案する。
論文 参考訳(メタデータ) (2024-08-12T08:52:14Z) - Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations [5.847997723738113]
現代の組み込みマイクロプロセッサは、混合精度NNを非常に限定的にサポートしている。
本稿では,協調ハードウェア設計,混合精度量子化,ISA拡張,推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。
我々のフレームワークは、平均15倍のエネルギー削減を1%未満の精度で達成でき、ISA非依存のRISC-Vコアよりも優れています。
論文 参考訳(メタデータ) (2024-07-19T12:54:04Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel
Max Series GPU [0.0]
機械学習アプリケーションに関連する3つの行列操作に焦点をあてる。
我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。
論文 参考訳(メタデータ) (2023-11-01T08:43:59Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。