論文の概要: SISA: A Scale-In Systolic Array for GEMM Acceleration
- arxiv url: http://arxiv.org/abs/2603.29913v1
- Date: Tue, 31 Mar 2026 15:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.761692
- Title: SISA: A Scale-In Systolic Array for GEMM Acceleration
- Title(参考訳): SISA: GEMM加速のためのスケールイン型シストリックアレイ
- Authors: Luigi Altamura, Alessio Cicero, Mateo Vázquez Maceiras, Mohammad Ali Maleki, Pedro Trancoso,
- Abstract要約: 従来の正方形配列を水平長方形スラブに分割する新しいSAアーキテクチャであるSISA(Scale-In Systolic Array)を提案する。
SISAは、最先端のモノリシックSAと比較して最大8.52倍のスピードアップと93%のエネルギー遅延生成物(EDP)還元を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The currently dominant AI/ML workloads, such as Large Language Models (LLMs), rely on the efficient execution of General Matrix-Matrix Multiplication (GEMM) operations. Thus, most systems are equipped with dedicated matrix hardware accelerators based on square Systolic Arrays (SAs) of Processing Elements (PEs). While this organization was effective for traditional Deep Neural Networks (DNNs), LLMs introduce input-dependent and highly skewed matrices, leading to underutilized SA resources. To address this challenge, we propose SISA (Scale-In Systolic Array), a novel SA architecture that partitions the traditional square array into horizontal rectangular slabs. With minimal overhead, SISA exposes parallelism through independently scheduled slabs for efficient execution of small or skewed matrix shapes, while retaining full-array operation for large GEMMs. SISA achieves up to 8.52x speedup and 93% energy-delay-product (EDP) reduction for representative LLMs compared to a state-of-the-art monolithic SA with the same number of PEs.
- Abstract(参考訳): 現在支配的なAI/MLワークロードであるLLM(Large Language Models)は、GEMM(General Matrix-Matrix Multiplication)操作の効率的な実行に依存している。
したがって、ほとんどのシステムは、処理要素(PE)の正方形シストリックアレイ(SA)に基づく専用マトリックスハードウェアアクセラレータを備えている。
この組織は従来のディープニューラルネットワーク(DNN)に有効であったが、LSMは入力に依存し、高度に歪んだ行列を導入し、未使用のSAリソースに繋がった。
この課題に対処するために、従来の正方形配列を水平長方形スラブに分割する新しいSAアーキテクチャであるSISA(Scale-In Systolic Array)を提案する。
最小限のオーバーヘッドで、SISAは独立にスケジュールされたスラブを通して並列性を公開し、大きなGEMMのフルアレイ操作を維持しながら、小さなまたは歪んだ行列形状の効率的な実行を行う。
SISAは8.52倍のスピードアップと93%のエネルギ遅延生成物(EDP)還元を、同じ数のPEを持つ最先端のモノリシックSAと比較して達成する。
関連論文リスト
- Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - A Flexible Instruction Set Architecture for Efficient GEMMs [40.50730628494053]
本稿では,命令セットアーキテクチャをマイクロアーキテクチャから完全に分離した最初の行列ISAであるマトリックスタイル拡張(MTE)を提案する。
MTEは最高の最先端行列ISAに対して1.35倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-07-04T12:17:00Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - BLAST: Block-Level Adaptive Structured Matrices for Efficient Deep Neural Network Inference [15.519068157865023]
本稿では,Block-Level Adaptive STructured (BLAST) 行列を導入し,ディープラーニングモデルにおける線形層の重み行列に代表される効率的な構造を学習・活用する。
言語と視覚の両方のタスクを圧縮するために行列を用いることの効率を実証する。
論文 参考訳(メタデータ) (2024-10-28T17:56:18Z) - Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。
本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing [0.0]
貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。
これらの固定行列の直接実装は、計算で実行される作業を最小化する。
ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
論文 参考訳(メタデータ) (2021-01-21T23:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。