論文の概要: GRIM: A General, Real-Time Deep Learning Inference Framework for Mobile
Devices based on Fine-Grained Structured Weight Sparsity
- arxiv url: http://arxiv.org/abs/2108.11033v1
- Date: Wed, 25 Aug 2021 03:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 13:09:46.750456
- Title: GRIM: A General, Real-Time Deep Learning Inference Framework for Mobile
Devices based on Fine-Grained Structured Weight Sparsity
- Title(参考訳): GRIM: 微細粒構造重み空間に基づくモバイルデバイスのための汎用リアルタイムディープラーニング推論フレームワーク
- Authors: Wei Niu, Zhengang Li, Xiaolong Ma, Peiyan Dong, Gang Zhou, Xuehai
Qian, Xue Lin, Yanzhi Wang, Bin Ren
- Abstract要約: 本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方に汎用的な新しいモバイル推論加速フレームワークGRIMを設計する。
ブロックベースカラムロープルーニング(BCR)による微細粒度構造解析手法を提案する。
我々のGRIMフレームワークは、この新たなきめ細かな構造化された空間に基づいて、(a)リアルタイムモバイル推論のためのコンパイラ最適化とコード生成という2つの部分で構成されています。
- 参考スコア(独自算出の注目度): 46.75304109970339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is appealing but challenging to achieve real-time deep neural network
(DNN) inference on mobile devices because even the powerful modern mobile
devices are considered as ``resource-constrained'' when executing large-scale
DNNs. It necessitates the sparse model inference via weight pruning, i.e., DNN
weight sparsity, and it is desirable to design a new DNN weight sparsity scheme
that can facilitate real-time inference on mobile devices while preserving a
high sparse model accuracy. This paper designs a novel mobile inference
acceleration framework GRIM that is General to both convolutional neural
networks (CNNs) and recurrent neural networks (RNNs) and that achieves
Real-time execution and high accuracy, leveraging fine-grained structured
sparse model Inference and compiler optimizations for Mobiles. We start by
proposing a new fine-grained structured sparsity scheme through the Block-based
Column-Row (BCR) pruning. Based on this new fine-grained structured sparsity,
our GRIM framework consists of two parts: (a) the compiler optimization and
code generation for real-time mobile inference; and (b) the BCR pruning
optimizations for determining pruning hyperparameters and performing weight
pruning. We compare GRIM with Alibaba MNN, TVM, TensorFlow-Lite, a sparse
implementation based on CSR, PatDNN, and ESE (a representative FPGA inference
acceleration framework for RNNs), and achieve up to 14.08x speedup.
- Abstract(参考訳): モバイルデバイス上でリアルタイムディープニューラルネットワーク(DNN)推論を実現するのは魅力的だが、大規模なDNNを実行する際には、パワフルなモバイル機器でさえ‘リソース制約’と見なされるため、難しい。
重み付けによるスパースモデル推論,すなわち、DNN重み空間性が必要であり、高いスパースモデル精度を維持しつつ、モバイルデバイス上でリアルタイムな推論を容易にする新しいDNN重み空間性スキームを設計することが望ましい。
本稿では,畳み込みニューラルネットワーク (cnns) とリカレントニューラルネットワーク (rnns) の両方に汎用的な新しいモバイル推論高速化フレームワーク grim を設計し,詳細な構造化スパースモデル推論とモバイル用コンパイラ最適化を活用し,リアルタイム実行と高精度化を実現する。
まず,Block-based Column-Row (BCR) プルーニングにより,より微細な構造を持つスポーシティスキームを提案する。
我々のGRIMフレームワークは、この新たな微細構造空間に基づいて、(a)リアルタイムモバイル推論のためのコンパイラ最適化とコード生成、(b)プルーニングハイパーパラメータを決定するためのBCRプルーニング最適化、およびウェイトプルーニングを行う2つの部分から構成される。
我々は、GRIMとAlibaba MNN、TVM、TensorFlow-Lite、CSR、PatDNN、ESE(RNNの代表的FPGA推論加速フレームワーク)に基づくスパース実装を比較し、最大14.08倍のスピードアップを達成する。
関連論文リスト
- SparseByteNN: A Novel Mobile Inference Acceleration Framework Based on
Fine-Grained Group Sparsity [10.89385369643021]
本稿では,モバイル推論アクセラレーションフレームワークであるSparseByteNNを提案する。
30%のスパースMobileNet-v1に対して,SparseByteNNは高密度バージョンで1.27倍,最先端のスパース推論エンジンMNNで1.29倍の高速化を実現し,精度は0.224%低下した。
論文 参考訳(メタデータ) (2023-10-30T13:08:48Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted
Regularization Method [69.49386965992464]
本稿では, 汎用的かつ柔軟な構造化プルーニング次元と, 強力かつ効率的な再加重正規化手法を組み合わせたブロック型プルーニングフレームワークを提案する。
我々のフレームワークは普遍的であり、CNNとRNNの両方に適用できる。
リアルタイムモバイルアクセラレーションと精度の妥協のないCNNとRNNの共通カバレッジを実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-01-23T03:30:56Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。