Fugu-MT 論文翻訳(概要): A Deep Learning Inference Scheme Based on Pipelined Matrix Multiplication Acceleration Design and Non-uniform Quantization

論文の概要: A Deep Learning Inference Scheme Based on Pipelined Matrix Multiplication Acceleration Design and Non-uniform Quantization

arxiv url: http://arxiv.org/abs/2110.04861v1
Date: Sun, 10 Oct 2021 17:31:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-12 16:45:19.943290
Title: A Deep Learning Inference Scheme Based on Pipelined Matrix Multiplication Acceleration Design and Non-uniform Quantization
Title（参考訳）: パイプライン行列乗算高速化設計と非一様量子化に基づくディープラーニング推論方式
Authors: Yuyang Zhang, Dik Hin Leung, Min Guo, Yijia Xiao, Haoyue Liu, Yunfei Li, Jiyuan Zhang, Guan Wang, Zhen Chen
Abstract要約: 本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
参考スコア（独自算出の注目度）: 9.454905560571085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Matrix multiplication is the bedrock in Deep Learning inference application. When it comes to hardware acceleration on edge computing devices, matrix multiplication often takes up a great majority of the time. To achieve better performance in edge computing, we introduce a low-power Multi-layer Perceptron (MLP) accelerator based on a pipelined matrix multiplication scheme and a nonuniform quantization methodology. The implementation is running on Field-programmable Gate Array (FPGA) devices and tested its performance on handwritten digit classification and Q-learning tasks. Results show that our method can achieve better performance with fewer power consumption.
Abstract（参考訳）: 行列乗算はディープラーニング推論アプリケーションの基盤となる。エッジコンピューティングデバイス上でハードウェアアクセラレーションを行う場合、行列乗算は多くの場合、大部分の時間を要する。エッジコンピューティングの性能向上のために,パイプライン行列乗算法と非一様量子化法に基づく低消費電力マルチ層パーセプトロン(mlp)加速器を導入する。この実装は、フィールドプログラマブルゲートアレイ(FPGA)デバイス上で動作し、手書き桁分類とQ-ラーニングタスクでその性能をテストしている。その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。

関連論文リスト

An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks [8.779871128906787]
大規模言語モデル(LLM)は、高度な計算インフラに依存しながら推論の非効率さに悩まされる。 3次重み付き1.58ビットLLMの推論時間とメモリ効率を改善するアルゴリズムを提案する。その結果,時間とメモリの両面でのアプローチの優位性が確認され,推論時間は最大29倍,メモリ使用量は最大6倍に短縮された。
論文参考訳（メタデータ） (2024-11-10T04:56:14Z)
Fast, Scalable, Energy-Efficient Non-element-wise Matrix Multiplication on FPGA [10.630802853096462]
現代のニューラルネットワーク(NN)アーキテクチャは、膨大な数の乗算演算に依存している。本稿ではFPGA上の高スループット,スケーラブル,エネルギー効率の非要素的行列乗算ユニットを提案する。 AMUを使用すると、FPGAベースの量子ニューラルネットワーク(QNN)アクセラレーターの最先端ソリューションよりも最大9倍高いスループットと112倍高いエネルギー効率が得られる。
論文参考訳（メタデータ） (2024-07-02T15:28:10Z)
Many-body computing on Field Programmable Gate Arrays [5.612626580467746]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。この結果、CPUベースの計算に比べて10倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
CoLA: Exploiting Compositional Structure for Automatic and Efficient Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文参考訳（メタデータ） (2023-09-06T14:59:38Z)
Automated Sizing and Training of Efficient Deep Autoencoders using Second Order Algorithms [0.46040036610482665]
一般化線形分類器の多段階学習法を提案する。検証エラーは不要な入力のプルーニングによって最小化される。所望の出力は、Ho-Kashyapルールに似た方法で改善される。
論文参考訳（メタデータ） (2023-08-11T16:48:31Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
GPU-Accelerated Machine Learning in Non-Orthogonal Multiple Access [71.58925117604039]
非直交多重アクセス(Noma)は、将来の5Gおよび6Gネットワークに必要な大規模な接続を可能にする興味深い技術である。線形処理と非線形処理の両方の利点を組み合わせたニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-06-13T09:38:23Z)
High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文参考訳（メタデータ） (2022-02-25T16:35:26Z)
Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文参考訳（メタデータ） (2021-10-05T07:42:41Z)
Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices [6.335302509003343]
マルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。このフレームワークは、マージン伝播(MP)技術に基づいて、ピースワイズ線形(PWL)近似を使用する。本研究では,FPGA(Field Programmable Gate Array)プラットフォーム向けに最適化されたハードウェアフレンドリーなMPベースの推論とオンライントレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-03T16:06:08Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Predictive Coding Approximates Backprop along Arbitrary Computation Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文参考訳（メタデータ） (2020-06-07T15:35:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。