Fugu-MT 論文翻訳(概要): A Flexible Instruction Set Architecture for Efficient GEMMs

論文の概要: A Flexible Instruction Set Architecture for Efficient GEMMs

arxiv url: http://arxiv.org/abs/2507.03522v1
Date: Fri, 04 Jul 2025 12:17:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:34.760373
Title: A Flexible Instruction Set Architecture for Efficient GEMMs
Title（参考訳）: 効率的なGEMMのためのフレキシブルな命令セットアーキテクチャ
Authors: Alexandre de Limas Santana, Adrià Armejach, Francesc Martinez, Erich Focht, Marc Casas,
Abstract要約: 本稿では,命令セットアーキテクチャをマイクロアーキテクチャから完全に分離した最初の行列ISAであるマトリックスタイル拡張(MTE)を提案する。 MTEは最高の最先端行列ISAに対して1.35倍のスピードアップを達成する。
参考スコア（独自算出の注目度）: 40.50730628494053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: GEneral Matrix Multiplications (GEMMs) are recurrent in high-performance computing and deep learning workloads. Typically, high-end CPUs accelerate GEMM workloads with Single-Instruction Multiple Data (SIMD) or vector Instruction Set Architectures (ISAs). Since these ISAs face significant issues when running GEMM workloads, particularly when dealing with small, tall, or skinny matrices, matrix ISAs have been proposed and implemented by major hardware vendors in the last years. Although these matrix ISAs deliver larger throughput when running GEMMs than their SIMD/vector counterparts, they are rigid solutions unable to dynamically adapt themselves to application-specific aspects like the data format. This paper demonstrates that the state-of-the-art matrix ISAs deliver suboptimal performance when running the most commonly used convolution and transformer models. This paper proposes the Matrix Tile Extension (MTE), the first matrix ISA that completely decouples the instruction set architecture from the microarchitecture and seamlessly interacts with existing vector ISAs. MTE incurs minimal implementation overhead since it only requires a few additional instructions and a 64-bit Control Status Register (CSR) to keep its state. Specifically, MTE can i) vectorize GEMMs across the three dimensions M, N, and K; ii) leverage the capacity of the existing vector register file; and iii) decouple the tile shape from the underlying microarchitecture. MTE achieves speed-ups of 1.35x over the best state-of-the-art matrix ISA.
Abstract（参考訳）: GEMM(GEneral Matrix Multiplications)は、高性能コンピューティングとディープラーニングのワークロードで繰り返し実行される。通常、ハイエンドCPUはGEMMワークロードをSingle-Instruction Multiple Data (SIMD) または vector Instruction Set Architectures (ISA) で加速する。これらのISAはGEMMワークロードの実行において大きな問題に直面しており、特に小さい、高い、または細い行列を扱う場合、行列ISAはここ数年、主要なハードウェアベンダーによって提案され、実装されてきた。これらの行列ISAは、GEMMの実行時にSIMD/ベクターよりも大きなスループットを提供するが、データフォーマットのようなアプリケーション固有の側面に動的に適応できない厳密なソリューションである。本稿では、最先端の行列ISAが、最もよく使われている畳み込みモデルと変圧器モデルを実行する際に、準最適性能を提供することを示す。本稿では、命令セットアーキテクチャをマイクロアーキテクチャから完全に切り離し、既存のベクトルISAとシームレスに相互作用する最初のマトリックスISAであるマトリックスタイル拡張(MTE)を提案する。 MTEは、いくつかの追加命令と状態を維持するために64ビット制御ステータスレジスタ(CSR)を必要とするため、最小限の実装オーバーヘッドを発生させる。特にMTEは一 GEMMをM、N、Kの3次元にわたってベクトル化すること。二既存のベクトルレジスタファイルの容量を活用すること。三タイル形状を下層のマイクロ構造から切り離すこと。 MTEは最高の最先端行列ISAに対して1.35倍のスピードアップを達成する。

関連論文リスト

The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference [0.9954176833299684]
ディープラーニング(DL)は、従来の64ビット浮動小数点(FP64)計算から、縮小精度のフォーマットへと変化した。本稿では,従来のハイパフォーマンスなgemを改訂し,それを混合精度整数算術に適用するための戦略について述べる。
論文参考訳（メタデータ） (2025-06-13T12:40:16Z)
SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文参考訳（メタデータ） (2024-11-23T21:43:38Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
LUT Tensor Core: A Software-Hardware Co-Design for LUT-Based Low-Bit LLM Inference [10.608817382813786]
混合精度の一般行列乗算は批判的だが未探索の演算である。現在のハードウェアはmpGEMMをネイティブにサポートしていないため、非効率なdequantizationベースの実装につながっている。低ビットLLM推論に最適化されたソフトウェアとハードウェアの共同設計ソリューションであるLUT Coreを提案する。
論文参考訳（メタデータ） (2024-08-12T08:52:14Z)
Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations [5.847997723738113]
現代の組み込みマイクロプロセッサは、混合精度NNを非常に限定的にサポートしている。本稿では,協調ハードウェア設計,混合精度量子化,ISA拡張,推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。我々のフレームワークは、平均15倍のエネルギー削減を1%未満の精度で達成でき、ISA非依存のRISC-Vコアよりも優れています。
論文参考訳（メタデータ） (2024-07-19T12:54:04Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel Max Series GPU [0.0]
機械学習アプリケーションに関連する3つの行列操作に焦点をあてる。我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。
論文参考訳（メタデータ） (2023-11-01T08:43:59Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
Online Multi-Object Tracking and Segmentation with GMPHD Filter and Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。 2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文参考訳（メタデータ） (2020-08-31T21:06:22Z)
High Throughput Matrix-Matrix Multiplication between Asymmetric Bit-Width Operands [11.742869426677242]
そこで本研究では,入力に混合精度を用い,より狭い16ビットの出力アキュムレータに積値を蓄積するSIMD行列乗算命令を提案する。提案した非対称オペランドサイズSIMD命令は、CPUにおける行列乗算のスループットを2倍改善する。また、最先端ハードウェアアクセラレーターにおいて、8ビットから4ビットのオペランド間の乗算および累積(MAC)操作をサポートするのにも有効である。
論文参考訳（メタデータ） (2020-08-03T04:12:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。