論文の概要: VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile
Acceleration on CPUs
- arxiv url: http://arxiv.org/abs/2302.08687v1
- Date: Fri, 17 Feb 2023 04:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 15:47:34.564205
- Title: VEGETA: Vertically-Integrated Extensions for Sparse/Dense GEMM Tile
Acceleration on CPUs
- Title(参考訳): VEGETA: CPU上でのスパース/ディエンスGEMMタイル高速化のための垂直統合拡張
- Authors: Geonhwa Jeong, Sana Damani, Abhimanyu Rajeshkumar Bambhaniya, Eric
Qin, Christopher J. Hughes, Sreenivas Subramoney, Hyesoon Kim, Tushar Krishna
- Abstract要約: この研究は、高密度マトリックスエンジン上でのISAおよびマイクロアーキテクチャ拡張の集合であるVEGETAを示し、CPUの柔軟な構造的空間性をサポートする。
VEGETAエンジンは、4:4 (dense), 2:4, 1:4, and unstructured sparse Layerを実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。
- 参考スコア(独自算出の注目度): 7.807134159136234
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Learning (DL) acceleration support in CPUs has recently gained a lot of
traction, with several companies (Arm, Intel, IBM) announcing products with
specialized matrix engines accessible via GEMM instructions. CPUs are pervasive
and need to handle diverse requirements across DL workloads running in
edge/HPC/cloud platforms. Therefore, as DL workloads embrace sparsity to reduce
the computations and memory size of models, it is also imperative for CPUs to
add support for sparsity to avoid under-utilization of the dense matrix engine
and inefficient usage of the caches and registers. This work presents VEGETA, a
set of ISA and microarchitecture extensions over dense matrix engines to
support flexible structured sparsity for CPUs, enabling programmable support
for diverse DL models with varying degrees of sparsity. Compared to the
state-of-the-art (SOTA) dense matrix engine in CPUs, a VEGETA engine provides
1.09x, 2.20x, 3.74x, and 3.28x speed-ups when running 4:4 (dense), 2:4, 1:4,
and unstructured (95%) sparse DNN layers.
- Abstract(参考訳): CPUにおけるディープラーニング(DL)アクセラレーションのサポートは、最近多くの注目を集めており、いくつかの企業(Arm、Intel、IBM)がGEMM命令でアクセス可能な特殊なマトリックスエンジンを備えた製品を発表した。
CPUは広く普及しており、エッジ/HPC/クラウドプラットフォームで動作するDLワークロードのさまざまな要件を処理する必要がある。
したがって、DLワークロードは、モデルの計算とメモリサイズを減らすためにスパーシリティを取り入れているため、高密度マトリックスエンジンの過小評価とキャッシュとレジスタの非効率使用を避けるために、CPUがスパーシリティのサポートを追加することが必須である。
この研究は、高密度マトリックスエンジン上のISAおよびマイクロアーキテクチャ拡張のセットであるVEGETAを示し、CPUの柔軟な構造化されたスパーシリティをサポートし、様々なパーシリティを持つ多様なDLモデルに対するプログラム可能なサポートを可能にする。
CPUのSOTA(State-of-the-art)密度行列エンジンと比較して、VEGETAエンジンは4:4 (dense), 2:4, 1:4, and unstructured (95%) スパースDNN層を実行するときに1.09x, 2.20x, 3.74x, 3.28xのスピードアップを提供する。
関連論文リスト
- INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - An Efficient Sparse Inference Software Accelerator for Transformer-based
Language Models on CPUs [12.883586189626431]
トランスフォーマーベースの言語モデルは、自然言語処理タスクの標準的なアプローチとなっている。
既存のほとんどのニューラルネットワーク推論ランタイムは、構造化されたスパーシリティを適切にサポートしていない。
本稿では,トランスフォーマーに基づく言語モデルのための効率的なスパース深層学習ソフトウェアスタックを提案する。
論文 参考訳(メタデータ) (2023-06-28T23:55:51Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - TorchSparse: Efficient Point Cloud Inference Engine [24.541195361633523]
本稿では,高性能なポイントクラウド推論エンジンであるTorchSparseを紹介する。
TorchSparseはスパース畳み込みの2つのボトルネック、すなわち不規則な計算とデータ移動を直接最適化する。
最先端のMinkowskiEngineとSpConvで、それぞれ1.6倍と1.5倍のエンドツーエンドのスピードアップを実現している。
論文 参考訳(メタデータ) (2022-04-21T17:58:30Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - RASA: Efficient Register-Aware Systolic Array Matrix Engine for CPU [6.436294460697506]
RASA, Register-Aware Systolic Arrayを提案する。
我々は,実行段階を複数のサブステージに分割し,命令を重複させてオーバーヘッドを隠蔽し,同時に実行する手法を開発した。
RASAをベースとした設計では、無視できる面積と電力オーバーヘッドで性能が大幅に向上した。
論文 参考訳(メタデータ) (2021-10-05T00:01:31Z) - Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする
CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。
ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文 参考訳(メタデータ) (2020-09-04T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。