論文の概要: A matrix math facility for Power ISA(TM) processors
- arxiv url: http://arxiv.org/abs/2104.03142v1
- Date: Wed, 7 Apr 2021 14:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:31:20.258465
- Title: A matrix math facility for Power ISA(TM) processors
- Title(参考訳): power isa(tm)プロセッサのための行列計算設備
- Authors: Jos\'e E. Moreira, Kit Barton, Steven Battle, Peter Bergner, Ramon
Bertran, Puneeth Bhat, Pedro Caldeira, David Edelsohn, Gordon Fossum, Brad
Frey, Nemanja Ivanovic, Chip Kerchner, Vincent Lim, Shakti Kapoor, Tulio
Machado Filho, Silvia Melitta Mueller, Brett Olsson, Satish Sadasivam,
Baptiste Saleil, Bill Schmidt, Rajalakshmi Srinivasaraghavan, Shricharan
Srivatsan, Brian Thompto, Andreas Wagner, Nelson Wu
- Abstract要約: マトリックス・マルチ・アシスト(Matrix-Multiply Assist)と呼ばれる新しい数学命令のファミリーがPower ISA(TM)バージョン3.1で導入された。
これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。
コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。
- 参考スコア(独自算出の注目度): 0.16910097443356495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Power ISA(TM) Version 3.1 has introduced a new family of matrix math
instructions, collectively known as the Matrix-Multiply Assist (MMA) facility.
The instructions in this facility implement numerical linear algebra operations
on small matrices and are meant to accelerate computation-intensive kernels,
such as matrix multiplication, convolution and discrete Fourier transform.
These instructions have led to a power- and area-efficient implementation of a
high throughput math engine in the future POWER10 processor. Performance per
core is 4 times better, at constant frequency, than the previous generation
POWER9 processor. We also advocate the use of compiler built-ins as the
preferred way of leveraging these instructions, which we illustrate through
case studies covering matrix multiplication and convolution.
- Abstract(参考訳): Power ISA(TM)バージョン3.1は、マトリックス・マルチ・アシスト(MMA)と呼ばれる新しい行列数学命令群を導入した。
この装置の命令は、小さな行列上の数値線形代数演算を実装し、行列の乗算、畳み込み、離散フーリエ変換のような計算集約的なカーネルを加速することを目的としている。
これらの命令は、将来のPOWER10プロセッサで高スループットの計算エンジンをパワー効率で実装するきっかけとなった。
コア毎のパフォーマンスは、前世代のPOWER9プロセッサの4倍、一定の周波数で向上している。
また,これらの命令を活用する方法としてコンパイラ組込みの利用を推奨し,行列の乗算と畳み込みを対象とするケーススタディを通じて述べる。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - AMULET: Adaptive Matrix-Multiplication-Like Tasks [6.094431019524036]
オープンソースコンパイラを拡張して,行列乗算のようなタスクを認識し,最適化する。
私たちのフレームワークは、Amuletと呼ばれ、データベーススタイルとコンパイラ最適化の両方の技術を使用します。
一般に、Amuletは手動の行列乗算ライブラリの15%以内で動作し、より広範な計算処理を処理している。
論文 参考訳(メタデータ) (2023-05-12T17:04:24Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Large Scale Distributed Linear Algebra With Tensor Processing Units [0.0]
我々は、機械学習用に開発されたアプリケーション固有のチップであるGoogle Processing Units (TPU) を、大規模で高密度な線形代数スーパーコンピュータにキュレートした。
マトリックス・マルチ・ユニット(MXU)がランタイムを支配しており、素晴らしいスケーリング、パフォーマンス、生のサイズを実現している。
論文 参考訳(メタデータ) (2021-12-16T16:55:22Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Robust 1-bit Compressive Sensing with Partial Gaussian Circulant
Matrices and Generative Priors [54.936314353063494]
我々は,ロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムのリカバリ保証を提供する。
我々は,実用的な反復アルゴリズムを用いて,画像データセットの数値実験を行い,結果の相関付けを行う。
論文 参考訳(メタデータ) (2021-08-08T05:28:06Z) - Multiplying Matrices Without Multiplying [0.0]
行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。
本稿では,既存の手法を大幅に上回る学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-21T05:08:54Z) - Non-PSD Matrix Sketching with Applications to Regression and
Optimization [56.730993511802865]
非PSDおよび2乗根行列の次元削減法を提案する。
複数のダウンストリームタスクにこれらのテクニックをどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-06-16T04:07:48Z) - Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing [0.0]
貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。
これらの固定行列の直接実装は、計算で実行される作業を最小化する。
ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
論文 参考訳(メタデータ) (2021-01-21T23:16:22Z) - What if Neural Networks had SVDs? [66.91160214071088]
様々なニューラルネットワークでは、行列反転のような時間を要する行列演算を採用している。
本稿では,行列演算を高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-29T12:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。