Fugu-MT 論文翻訳(概要): Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir Computing

論文の概要: Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir Computing

arxiv url: http://arxiv.org/abs/2101.08884v1
Date: Thu, 21 Jan 2021 23:16:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-21 07:47:12.925924
Title: Direct Spatial Implementation of Sparse Matrix Multipliers for Reservoir Computing
Title（参考訳）: 貯留層計算のためのスパース行列乗算器の直接空間実装
Authors: Matthew Denton and Herman Schmit
Abstract要約: 貯水池の計算システムは、非常に大きくてスパースな固定行列の繰り返し乗算に依存している。これらの固定行列の直接実装は、計算で実行される作業を最小化する。ビットシリアル行列乗算器の構造を提示し、正則符号付き桁表現を用いて論理利用をさらに削減する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reservoir computing systems rely on the recurrent multiplication of a very large, sparse, fixed matrix. We argue that direct spatial implementation of these fixed matrices minimizes the work performed in the computation, and allows for significant reduction in latency and power through constant propagation and logic minimization. Bit-serial arithmetic enables massive static matrices to be implemented. We present the structure of our bit-serial matrix multiplier, and evaluate using canonical signed digit representation to further reduce logic utilization. We have implemented these matrices on a large FPGA and provide a cost model that is simple and extensible. These FPGA implementations, on average, reduce latency by 50x up to 86x versus GPU libraries. Comparing against a recent sparse DNN accelerator, we measure a 4.1x to 47x reduction in latency depending on matrix dimension and sparsity. Throughput of the FPGA solution is also competitive for a wide range of matrix dimensions and batch sizes. Finally, we discuss ways these techniques could be deployed in ASICs, making them applicable for dynamic sparse matrix computations.
Abstract（参考訳）: 貯水池計算システムは、非常に大きくスパースで固定された行列の繰り返しの乗算に依存する。これらの固定行列の空間的直接的実装は計算における作業を最小限にし、定常伝播と論理最小化による遅延と電力の大幅な削減を可能にする。ビットシリアル演算により、巨大な静的行列を実装できる。本稿では,ビットシリアル行列乗算器の構造を示し,正規符号付き桁表現を用いて論理利用のさらなる削減を図る。我々は、これらの行列を大きなFPGA上に実装し、シンプルで拡張可能なコストモデルを提供する。これらのFPGAの実装は平均して、GPUライブラリと比較して50倍のレイテンシを86倍に削減する。最近のスパースdnn加速器と比較すると、マトリックス次元とスパース性に依存するレイテンシの4.1倍から47倍削減できる。 FPGAソリューションのスループットは、幅広い行列次元とバッチサイズに対して競合する。最後に,これらの手法をASICに展開する方法について議論し,動的スパース行列計算に適用する。

関連論文リスト

Orthogonal Finetuning Made Scalable [87.49040247077389]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。これらの修正により、OFTv2はパフォーマンスを損なうことなく、最大10倍高速なトレーニングと3倍のGPUメモリ使用率を達成することができる。
論文参考訳（メタデータ） (2025-06-24T17:59:49Z)
Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文参考訳（メタデータ） (2025-06-14T07:39:15Z)
Improving Algorithmic Efficiency using Cryptography [11.496343300483904]
計算問題を解く際の時間的複雑さを改善するために暗号を用いる方法を示す。標準的な暗号仮定の下では、既存のアルゴリズムよりも決定的に高速なアルゴリズムを設計できることを示す。
論文参考訳（メタデータ） (2025-02-18T17:08:59Z)
An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks [8.779871128906787]
我々はディープニューラルネットワーク(DNN)の推論時間とメモリ効率を改善するアルゴリズムを提案する。推論のボトルネック演算として行列乗法に着目する。我々の実験は推論時間で5.24倍のスピードアップを示す。
論文参考訳（メタデータ） (2024-11-10T04:56:14Z)
Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文参考訳（メタデータ） (2024-09-26T14:17:58Z)
Fast inference with Kronecker-sparse matrices [4.387337528923525]
Kronecker-sparse行列による乗算のための最初のエネルギーおよび時間ベンチマークを示す。私たちのベンチマークでは、メモリ書き換え操作に実行時の最大50%を特殊実装が費やしていることも示しています。我々は,エネルギー消費を15%削減しつつ,x1.4の中央値の高速化を実現する新しいカーネルを実装した。
論文参考訳（メタデータ） (2024-05-23T19:36:10Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
Optimized Sparse Matrix Operations for Reverse Mode Automatic Differentiation [3.72826300260966]
本稿では,PyTorch のための CSR ベースのスパース行列ラッパーの実装について述べる。また,結果のスパースカーネルを最適化に応用し,実装や性能測定の容易さを高密度カーネルと比較した。
論文参考訳（メタデータ） (2022-12-10T00:46:51Z)
RSC: Accelerating Graph Neural Networks Training via Randomized Sparse Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文参考訳（メタデータ） (2022-10-19T17:25:33Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文参考訳（メタデータ） (2021-10-05T07:42:41Z)
Robust 1-bit Compressive Sensing with Partial Gaussian Circulant Matrices and Generative Priors [54.936314353063494]
我々は,ロバストな1ビット圧縮センシングのための相関に基づく最適化アルゴリズムのリカバリ保証を提供する。我々は,実用的な反復アルゴリズムを用いて,画像データセットの数値実験を行い,結果の相関付けを行う。
論文参考訳（メタデータ） (2021-08-08T05:28:06Z)
Non-PSD Matrix Sketching with Applications to Regression and Optimization [56.730993511802865]
非PSDおよび2乗根行列の次元削減法を提案する。複数のダウンストリームタスクにこれらのテクニックをどのように使用できるかを示す。
論文参考訳（メタデータ） (2021-06-16T04:07:48Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Fast and Accurate Pseudoinverse with Sparse Matrix Reordering and Incremental Approach [4.710916891482697]
擬逆は行列逆の一般化であり、機械学習で広く利用されている。 FastPIはスパース行列に対する新たなインクリメンタル特異値分解法(SVD)である。我々は,FastPIが精度を損なうことなく,他の近似手法よりも高速に擬似逆計算を行うことを示す。
論文参考訳（メタデータ） (2020-11-09T07:47:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。