論文の概要: PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning
- arxiv url: http://arxiv.org/abs/2001.00138v4
- Date: Wed, 22 Jan 2020 04:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 09:30:53.974860
- Title: PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning
- Title(参考訳): PatDNN: パターンベースの軽量プルーニングを備えたモバイルデバイスでのリアルタイムDNN実行を実現する
- Authors: Wei Niu, Xiaolong Ma, Sheng Lin, Shihao Wang, Xuehai Qian, Xue Lin,
Yanzhi Wang, Bin Ren
- Abstract要約: 粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
- 参考スコア(独自算出の注目度): 57.20262984116752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of a spectrum of high-end mobile devices, many
applications that formerly required desktop-level computation capability are
being transferred to these devices. However, executing the inference of Deep
Neural Networks (DNNs) is still challenging considering high computation and
storage demands, specifically, if real-time performance with high accuracy is
needed. Weight pruning of DNNs is proposed, but existing schemes represent two
extremes in the design space: non-structured pruning is fine-grained, accurate,
but not hardware friendly; structured pruning is coarse-grained,
hardware-efficient, but with higher accuracy loss. In this paper, we introduce
a new dimension, fine-grained pruning patterns inside the coarse-grained
structures, revealing a previously unknown point in design space. With the
higher accuracy enabled by fine-grained pruning patterns, the unique insight is
to use the compiler to re-gain and guarantee high hardware efficiency. In other
words, our method achieves the best of both worlds, and is desirable across
theory/algorithm, compiler, and hardware levels. The proposed PatDNN is an
end-to-end framework to efficiently execute DNN on mobile devices with the help
of a novel model compression technique (pattern-based pruning based on extended
ADMM solution framework) and a set of thorough architecture-aware compiler- and
code generation-based optimizations (filter kernel reordering, compressed
weight storage, register load redundancy elimination, and parameter
auto-tuning). Evaluation results demonstrate that PatDNN outperforms three
state-of-the-art end-to-end DNN frameworks, TensorFlow Lite, TVM, and Alibaba
Mobile Neural Network with speedup up to 44.5x, 11.4x, and 7.1x, respectively,
with no accuracy compromise. Real-time inference of representative large-scale
DNNs (e.g., VGG-16, ResNet-50) can be achieved using mobile devices.
- Abstract(参考訳): ハイエンドモバイルデバイスの出現に伴い、以前はデスクトップレベルの計算能力を必要としていた多くのアプリケーションがこれらのデバイスに転送されている。
しかし、DNN(Deep Neural Networks)の推論の実行は、高い計算とストレージ要求、特に高精度なリアルタイムパフォーマンスが必要な場合、依然として困難である。
非構造化プルーニングは細粒度であり、正確であるが、ハードウェアフレンドリーではない;構造化プルーニングは粗粒度で、ハードウェア効率が高く、高い精度の損失がある。
本稿では, 粗粒構造の内部に新しい寸法細粒状プルーニングパターンを導入し, 設計空間における従来不明な点を明らかにする。
細粒度のプルーニングパターンによって高い精度を実現しているため、コンパイラを使って高いハードウェア効率を保証できるというユニークな洞察がある。
言い換えれば,本手法は両世界の最良を達成し,理論・アルゴリズム,コンパイラ,ハードウェアレベルで望ましい。
提案するPatDNNは、新しいモデル圧縮技術(拡張ADMMソリューションフレームワークに基づくパターンベースプルーニング)と、アーキテクチャを意識したコンパイラとコード生成ベースの最適化(フィルタカーネルのリオーダー、圧縮重み付け、レジスタロード冗長性排除、パラメータ自動チューニング)の助けを借りて、モバイルデバイス上でDNNを効率的に実行するためのエンドツーエンドフレームワークである。
評価結果は、PatDNNが3つの最先端のエンドツーエンドDNNフレームワーク、TensorFlow Lite、TVM、Alibaba Mobile Neural Networkをそれぞれ44.5x、11.4x、7.1xで上回り、精度の妥協はないことを示している。
代表的な大規模DNN(例えばVGG-16、ResNet-50)のリアルタイム推論はモバイルデバイスで実現できる。
関連論文リスト
- DepthShrinker: A New Compression Paradigm Towards Boosting Real-Hardware
Efficiency of Compact Neural Networks [29.46621102184345]
ハードウェアフレンドリーなコンパクトネットワークを開発するために,DepthShrinkerというフレームワークを提案する。
我々のフレームワークは、最先端のDNNや圧縮技術より優れたハードウェアフレンドリーなコンパクトネットワークを提供する。
論文 参考訳(メタデータ) (2022-06-02T02:32:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - GRIM: A General, Real-Time Deep Learning Inference Framework for Mobile
Devices based on Fine-Grained Structured Weight Sparsity [46.75304109970339]
本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方に汎用的な新しいモバイル推論加速フレームワークGRIMを設計する。
ブロックベースカラムロープルーニング(BCR)による微細粒度構造解析手法を提案する。
我々のGRIMフレームワークは、この新たなきめ細かな構造化された空間に基づいて、(a)リアルタイムモバイル推論のためのコンパイラ最適化とコード生成という2つの部分で構成されています。
論文 参考訳(メタデータ) (2021-08-25T03:50:46Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。