Fugu-MT 論文翻訳(概要): SparseDNN: Fast Sparse Deep Learning Inference on CPUs

論文の概要: SparseDNN: Fast Sparse Deep Learning Inference on CPUs

arxiv url: http://arxiv.org/abs/2101.07948v2
Date: Thu, 28 Jan 2021 03:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 09:16:55.988640
Title: SparseDNN: Fast Sparse Deep Learning Inference on CPUs
Title（参考訳）: SparseDNN: CPU上での高速なスパースディープラーニング推論
Authors: Ziheng Wang
Abstract要約: CPUをターゲットとしたスパースディープラーニング推論エンジンであるSparseDNNを紹介します。我々のスパースコードジェネレータは,最先端のスパースライブラリや高密度ライブラリよりも大幅に高速化できることを示す。
参考スコア（独自算出の注目度）: 1.6244541005112747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The last few years have seen gigantic leaps in algorithms and systems to support efficient deep learning inference. Pruning and quantization algorithms can now consistently compress neural networks by an order of magnitude. For a compressed neural network, a multitude of inference frameworks have been designed to maximize the performance of the target hardware. While we find mature support for quantized neural networks in production frameworks such as OpenVINO and MNN, support for pruned sparse neural networks is still lacking. To tackle this challenge, we present SparseDNN, a sparse deep learning inference engine targeting CPUs. We present both kernel-level optimizations with a sparse code generator to accelerate sparse operators and novel network-level optimizations catering to sparse networks. We show that our sparse code generator can achieve significant speedups over state-of-the-art sparse and dense libraries. On end-to-end benchmarks such as Huggingface pruneBERT, SparseDNN achieves up to 5x throughput improvement over dense inference with state-of-the-art OpenVINO.
Abstract（参考訳）: ここ数年、効率的なディープラーニング推論をサポートするアルゴリズムやシステムに大きな飛躍を遂げてきた。プルーニングと量子化アルゴリズムは、ニューラルネットワークを桁違いに圧縮することができるようになった。圧縮ニューラルネットワークでは、ターゲットハードウェアの性能を最大化するために、多数の推論フレームワークが設計されている。 OpenVINOやMNNのようなプロダクションフレームワークにおける量子化ニューラルネットワークの成熟したサポートはありますが、刈り取ったスパースニューラルネットワークのサポートはまだ不足しています。この課題に対処するために、CPUを対象としたスパース深層学習推論エンジンであるSparseDNNを紹介する。スパース演算子を高速化するスパースコード生成器を備えたカーネルレベルの最適化と、スパースネットワークに対応する新しいネットワークレベルの最適化を提案する。我々のスパースコードジェネレータは最先端のスパースライブラリや高密度ライブラリよりも大幅に高速化できることを示す。 Huggingface pruneBERTのようなエンドツーエンドのベンチマークでは、SparseDNNは最先端のOpenVINOによる高密度推論よりも最大5倍のスループット向上を実現している。

関連論文リスト

RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。 NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文参考訳（メタデータ） (2024-09-27T15:35:36Z)
Spyx: A Library for Just-In-Time Compiled Optimization of Spiking Neural Networks [0.08965418284317034]
Spiking Neural Networks(SNN)は、小さくて低消費電力なハードウェアフットプリントによるエネルギー効率の向上を提供する。本稿では、JAXで設計された新しい軽量SNNシミュレーションおよび最適化ライブラリSpyxを紹介する。
論文参考訳（メタデータ） (2024-02-29T09:46:44Z)
FSCNN: A Fast Sparse Convolution Neural Network Inference System [31.474696818171953]
畳み込みニューラルネットワーク(CNN)は目覚ましい成功を収めているが、通常は高い計算コストと多くの冗長な重みパラメータが伴う。 FLOPを小さくするためには、粗粒の粗さを導入して隠蔽構造全体を除去する構造刈りが一般的である。圧縮されたCNNの微細な粒度を利用した効率的な畳み込みニューラルネットワーク推論システムを提案する。
論文参考訳（メタデータ） (2022-12-17T06:44:58Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
E3NE: An End-to-End Framework for Accelerating Spiking Neural Networks with Emerging Neural Encoding on FPGAs [6.047137174639418]
エンドツーエンドフレームワークのE3NEはFPGAのための効率的なSNN推論ロジックを生成する。 E3NEはハードウェアリソースの50%未満を消費し、20%の電力を消費する一方で、レイテンシを桁違いに低減する。
論文参考訳（メタデータ） (2021-11-19T04:01:19Z)
Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。 SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文参考訳（メタデータ） (2021-10-18T11:30:29Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文参考訳（メタデータ） (2021-02-08T05:55:47Z)
Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文参考訳（メタデータ） (2020-12-31T18:48:58Z)
Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文参考訳（メタデータ） (2020-07-31T01:57:47Z)
Compiling Spiking Neural Networks to Neuromorphic Hardware [4.273223677453178]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上で実行される機械学習アプリケーションのエネルギー消費を減少させる。本稿では,資源制約のあるニューロモルフィックハードウェア上でSNNを分析し,コンパイルする手法を提案する。
論文参考訳（メタデータ） (2020-04-07T21:13:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。