論文の概要: Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing
- arxiv url: http://arxiv.org/abs/2101.08884v1
- Date: Thu, 21 Jan 2021 23:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:47:12.925924
- Title: Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir
Computing
- Title(参考訳): 貯留層計算のためのスパース行列乗算器の直接空間実装
- Authors: Matthew Denton and Herman Schmit
- Abstract要約: 貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。
これらの固定行列の直接実装は、計算で実行される作業を最小化する。
ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reservoir computing systems rely on the recurrent multiplication of a very
large, sparse, fixed matrix. We argue that direct spatial implementation of
these fixed matrices minimizes the work performed in the computation, and
allows for significant reduction in latency and power through constant
propagation and logic minimization. Bit-serial arithmetic enables massive
static matrices to be implemented. We present the structure of our bit-serial
matrix multiplier, and evaluate using canonical signed digit representation to
further reduce logic utilization. We have implemented these matrices on a large
FPGA and provide a cost model that is simple and extensible. These FPGA
implementations, on average, reduce latency by 50x up to 86x versus GPU
libraries. Comparing against a recent sparse DNN accelerator, we measure a 4.1x
to 47x reduction in latency depending on matrix dimension and sparsity.
Throughput of the FPGA solution is also competitive for a wide range of matrix
dimensions and batch sizes. Finally, we discuss ways these techniques could be
deployed in ASICs, making them applicable for dynamic sparse matrix
computations.
- Abstract(参考訳): 貯水池計算システムは、非常に大きくスパースで固定された行列の繰り返しの乗算に依存する。
これらの固定行列の空間的直接的実装は計算における作業を最小限にし、定常伝播と論理最小化による遅延と電力の大幅な削減を可能にする。
ビットシリアル演算により、巨大な静的行列を実装できる。
本稿では,ビットシリアル行列乗算器の構造を示し,正規符号付き桁表現を用いて論理利用のさらなる削減を図る。
我々は、これらの行列を大きなFPGA上に実装し、シンプルで拡張可能なコストモデルを提供する。
これらのFPGAの実装は平均して、GPUライブラリと比較して50倍のレイテンシを86倍に削減する。
最近のスパースdnn加速器と比較すると、マトリックス次元とスパース性に依存するレイテンシの4.1倍から47倍削減できる。
FPGAソリューションのスループットは、幅広い行列次元とバッチサイズに対して競合する。
最後に,これらの手法をASICに展開する方法について議論し,動的スパース行列計算に適用する。
関連論文リスト
- Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Fast inference with Kronecker-sparse matrices [4.387337528923525]
Kronecker-sparse行列による乗算のための最初のエネルギーおよび時間ベンチマークを示す。
私たちのベンチマークでは、メモリ書き換え操作に実行時の最大50%を特殊実装が費やしていることも示しています。
我々は,エネルギー消費を15%削減しつつ,x1.4の中央値の高速化を実現する新しいカーネルを実装した。
論文 参考訳(メタデータ) (2024-05-23T19:36:10Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Optimized Sparse Matrix Operations for Reverse Mode Automatic
Differentiation [3.72826300260966]
本稿では,PyTorch のための CSR ベースのスパース行列ラッパーの実装について述べる。
また,結果のスパースカーネルを最適化に応用し,実装や性能測定の容易さを高密度カーネルと比較した。
論文 参考訳(メタデータ) (2022-12-10T00:46:51Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z) - Robust 1-bit Compressive Sensing with Partial Gaussian Circulant
Matrices and Generative Priors [54.936314353063494]
我々は,ロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムのリカバリ保証を提供する。
我々は,実用的な反復アルゴリズムを用いて,画像データセットの数値実験を行い,結果の相関付けを行う。
論文 参考訳(メタデータ) (2021-08-08T05:28:06Z) - Non-PSD Matrix Sketching with Applications to Regression and
Optimization [56.730993511802865]
非PSDおよび2乗根行列の次元削減法を提案する。
複数のダウンストリームタスクにこれらのテクニックをどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-06-16T04:07:48Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Fast and Accurate Pseudoinverse with Sparse Matrix Reordering and
Incremental Approach [4.710916891482697]
擬逆は行列逆の一般化であり、機械学習で広く利用されている。
FastPIはスパース行列に対する新たなインクリメンタル特異値分解法(SVD)である。
我々は,FastPIが精度を損なうことなく,他の近似手法よりも高速に擬似逆計算を行うことを示す。
論文 参考訳(メタデータ) (2020-11-09T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。