論文の概要: SparseByteNN: A Novel Mobile Inference Acceleration Framework Based on
Fine-Grained Group Sparsity
- arxiv url: http://arxiv.org/abs/2310.19509v1
- Date: Mon, 30 Oct 2023 13:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:20:35.275820
- Title: SparseByteNN: A Novel Mobile Inference Acceleration Framework Based on
Fine-Grained Group Sparsity
- Title(参考訳): SparseByteNN: 微細なグループ空間に基づく新しいモバイル推論高速化フレームワーク
- Authors: Haitao Xu, Songwei Liu, Yuyang Xu, Shuai Wang, Jiashi Li, Chenqian
Yan, Liangqiang Li, Lean Fu, Xin Pan, Fangmin Chen
- Abstract要約: 本稿では,モバイル推論アクセラレーションフレームワークであるSparseByteNNを提案する。
30%のスパースMobileNet-v1に対して,SparseByteNNは高密度バージョンで1.27倍,最先端のスパース推論エンジンMNNで1.29倍の高速化を実現し,精度は0.224%低下した。
- 参考スコア(独自算出の注目度): 10.89385369643021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the challenge of increasing network size, researchers have
developed sparse models through network pruning. However, maintaining model
accuracy while achieving significant speedups on general computing devices
remains an open problem. In this paper, we present a novel mobile inference
acceleration framework SparseByteNN, which leverages fine-grained kernel
sparsity to achieve real-time execution as well as high accuracy. Our framework
consists of two parts: (a) A fine-grained kernel sparsity schema with a
sparsity granularity between structured pruning and unstructured pruning. It
designs multiple sparse patterns for different operators. Combined with our
proposed whole network rearrangement strategy, the schema achieves a high
compression rate and high precision at the same time. (b) Inference engine
co-optimized with the sparse pattern. The conventional wisdom is that this
reduction in theoretical FLOPs does not translate into real-world efficiency
gains. We aim to correct this misconception by introducing a family of
efficient sparse kernels for ARM and WebAssembly. Equipped with our efficient
implementation of sparse primitives, we show that sparse versions of
MobileNet-v1 outperform strong dense baselines on the efficiency-accuracy
curve. Experimental results on Qualcomm 855 show that for 30% sparse
MobileNet-v1, SparseByteNN achieves 1.27x speedup over the dense version and
1.29x speedup over the state-of-the-art sparse inference engine MNN with a
slight accuracy drop of 0.224%. The source code of SparseByteNN will be
available at https://github.com/lswzjuer/SparseByteNN
- Abstract(参考訳): ネットワークサイズを増やすという課題に対処するため、研究者らはネットワークプルーニングを通じてスパースモデルを開発した。
しかし、一般のコンピュータデバイス上での大幅な高速化を達成しながらモデル精度を維持することは、未解決の問題である。
本稿では,カーネルの粒度を微粒化してリアルタイム実行を実現し,高精度なモバイル推論高速化フレームワークであるSparseByteNNを提案する。
私たちの枠組みは2つの部分からなる。
(a) 構造化プルーニングと非構造化プルーニングの疎粒度を有する微細粒度カーネルスペーシティスキーマ。
異なる演算子のために複数のスパースパターンを設計する。
提案する全ネットワーク再構成戦略と組み合わせることで,高い圧縮率と高い精度を同時に達成できる。
b)スパースパターンと共最適化された推論エンジン。
従来の知恵では、この理論的FLOPの減少は実世界の効率向上には変換されない。
ARMとWebAssembly用の効率的なスパースカーネル群を導入することで、この誤解を修正することを目指している。
スパースプリミティブの効率的な実装により,MobileNet-v1のスパースバージョンは,効率・精度曲線の高密度ベースラインよりも優れていることを示す。
Qualcomm 855の実験結果によると、30%のスパースMobileNet-v1では、SparseByteNNは密度の高いバージョンで1.27倍、最先端のスパース推論エンジンMNNで1.29倍のスピードアップを達成した。
SparseByteNNのソースコードはhttps://github.com/lswzjuer/SparseByteNNで入手できる。
関連論文リスト
- FSCNN: A Fast Sparse Convolution Neural Network Inference System [31.474696818171953]
畳み込みニューラルネットワーク(CNN)は目覚ましい成功を収めているが、通常は高い計算コストと多くの冗長な重みパラメータが伴う。
FLOPを小さくするためには、粗粒の粗さを導入して隠蔽構造全体を除去する構造刈りが一般的である。
圧縮されたCNNの微細な粒度を利用した効率的な畳み込みニューラルネットワーク推論システムを提案する。
論文 参考訳(メタデータ) (2022-12-17T06:44:58Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - GRIM: A General, Real-Time Deep Learning Inference Framework for Mobile
Devices based on Fine-Grained Structured Weight Sparsity [46.75304109970339]
本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方に汎用的な新しいモバイル推論加速フレームワークGRIMを設計する。
ブロックベースカラムロープルーニング(BCR)による微細粒度構造解析手法を提案する。
我々のGRIMフレームワークは、この新たなきめ細かな構造化された空間に基づいて、(a)リアルタイムモバイル推論のためのコンパイラ最適化とコード生成という2つの部分で構成されています。
論文 参考訳(メタデータ) (2021-08-25T03:50:46Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - SparseDNN: Fast Sparse Deep Learning Inference on CPUs [1.6244541005112747]
CPUをターゲットとしたスパースディープラーニング推論エンジンであるSparseDNNを紹介します。
我々のスパースコードジェネレータは,最先端のスパースライブラリや高密度ライブラリよりも大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2021-01-20T03:27:35Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。