論文の概要: NeuralMatrix: Moving Entire Neural Networks to General Matrix
Multiplication for Efficient Inference
- arxiv url: http://arxiv.org/abs/2305.14405v1
- Date: Tue, 23 May 2023 12:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 00:13:37.434041
- Title: NeuralMatrix: Moving Entire Neural Networks to General Matrix
Multiplication for Efficient Inference
- Title(参考訳): ニューラルネットワーク: 効率的な推論のための一般行列乗算への移行
- Authors: Ruiqi Sun, Jie Zhao, Xin He, Yiran Li, An Zou
- Abstract要約: 本稿では,1つの一般行列乗算(GEMM)アクセラレータ上で,多元性深層ニューラルネットワーク(DNN)の計算を可能にする新しいフレームワークを提案する。
提案手法は、アプリケーション固有の加速レベルを達成しつつASICベースの加速器の特異性制限を克服する。
- 参考スコア(独自算出の注目度): 18.292322602073625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduce NeuralMatrix, a novel framework that enables the
computation of versatile deep neural networks (DNNs) on a single general matrix
multiplication (GEMM) accelerator. The proposed approach overcomes the
specificity limitations of ASIC-based accelerators while achieving
application-specific acceleration levels compared to general-purpose processors
such as CPUs and GPUs. We address the challenges of mapping both linear and
nonlinear operations in DNN computation to general matrix multiplications and
the impact of using a GEMM accelerator on DNN inference accuracy. Extensive
experiments are conducted on various DNN models from three popular categories
(i.e., CNN, Transformers, and GNN) as illustrative backbone models. Our results
demonstrate that DNNs suffer only up to a 2.02% accuracy loss after being
converted to general matrix multiplication, while achieving 113x to 19.44x
improvements in throughput per power compared to CPUs and GPUs.
- Abstract(参考訳): 本研究では,1つの一般行列乗算(GEMM)アクセラレータ上で,汎用的なディープニューラルネットワーク(DNN)の計算を可能にする新しいフレームワークであるNeuralMatrixを紹介する。
提案手法は、asicベースの加速器の特異性制限を克服し、cpuやgpuのような汎用プロセッサと比較してアプリケーション固有の加速レベルを達成する。
本稿では,DNN計算における線形演算と非線形演算を一般行列乗算にマッピングすることの課題と,GEMM加速器がDNN推定精度に与える影響について述べる。
3つの人気のあるカテゴリ(CNN、Transformers、GNN)の様々なDNNモデルに対して、イラストレーターバックボーンモデルとして大規模な実験を行う。
その結果、DNNは一般的な行列乗算に変換された後、最大で2.02%の精度の損失しか得られず、CPUやGPUと比較して113倍から19.44倍のスループット向上を達成できた。
関連論文リスト
- Scalable Mechanistic Neural Networks [52.28945097811129]
長い時間的シーケンスを含む科学機械学習応用のための拡張ニューラルネットワークフレームワークを提案する。
元のメカニスティックニューラルネットワーク (MNN) を再構成することにより、計算時間と空間の複雑さを、それぞれ、列長に関して立方体と二次体から線形へと減少させる。
大規模な実験により、S-MNNは元のMNNと精度で一致し、計算資源を大幅に削減した。
論文 参考訳(メタデータ) (2024-10-08T14:27:28Z) - Training Integer-Only Deep Recurrent Neural Networks [3.1829446824051195]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
本手法は, 層正規化, 注意, アクティベーション関数の適応的片方向線形(PWL)近似をサポートする。
提案手法により,RNNベースの言語モデルでエッジデバイス上で実行可能である。
論文 参考訳(メタデータ) (2022-12-22T15:22:36Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - iRNN: Integer-only Recurrent Neural Network [0.8766022970635899]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
当社のiRNNは、フル精度のものと同等のパフォーマンスを維持しており、スマートフォンへの展開により、ランタイムのパフォーマンスが2倍、モデルサイズが4倍に向上しています。
論文 参考訳(メタデータ) (2021-09-20T20:17:40Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - An Alternative Practice of Tropical Convolution to Traditional
Convolutional Neural Networks [0.5837881923712392]
トロピカル畳み込みニューラルネットワーク (TCNNs) と呼ばれる新しいタイプのCNNを提案する。
TCNNは、従来の畳み込み層における乗算と加算をそれぞれ加算とmin/max演算に置き換える熱帯畳み込みの上に構築されている。
我々は,MNIST と CIFAR10 の画像データセットにおいて,通常の畳み込み層よりも表現力が高いことを示す。
論文 参考訳(メタデータ) (2021-03-03T00:13:30Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Block-term Tensor Neural Networks [29.442026567710435]
ブロック終端テンソル層(BT層)は,CNNやRNNなどのニューラルネットワークモデルに容易に適用可能であることを示す。
CNNとRNNのBT層は、元のDNNの表現力を維持したり改善したりしながら、パラメータ数に対して非常に大きな圧縮比を達成することができる。
論文 参考訳(メタデータ) (2020-10-10T09:58:43Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。