論文の概要: Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration
- arxiv url: http://arxiv.org/abs/2111.11581v1
- Date: Mon, 22 Nov 2021 23:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 06:19:36.296851
- Title: Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration
- Title(参考訳): リアルタイムモバイルアクセラレーションのための最良のDNNプルーニングスキームの自動マッピング
- Authors: Yifan Gong, Geng Yuan, Zheng Zhan, Wei Niu, Zhengang Li, Pu Zhao,
Yuxuan Cai, Sijia Liu, Bin Ren, Xue Lin, Xulong Tang, Yanzhi Wang
- Abstract要約: 本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 71.80326738527734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight pruning is an effective model compression technique to tackle the
challenges of achieving real-time deep neural network (DNN) inference on mobile
devices. However, prior pruning schemes have limited application scenarios due
to accuracy degradation, difficulty in leveraging hardware acceleration, and/or
restriction on certain types of DNN layers. In this paper, we propose a
general, fine-grained structured pruning scheme and corresponding compiler
optimizations that are applicable to any type of DNN layer while achieving high
accuracy and hardware inference performance. With the flexibility of applying
different pruning schemes to different layers enabled by our compiler
optimizations, we further probe into the new problem of determining the
best-suited pruning scheme considering the different acceleration and accuracy
performance of various pruning schemes. Two pruning scheme mapping methods, one
is search-based and the other is rule-based, are proposed to automatically
derive the best-suited pruning regularity and block size for each layer of any
given DNN. Experimental results demonstrate that our pruning scheme mapping
methods, together with the general fine-grained structured pruning scheme,
outperform the state-of-the-art DNN optimization framework with up to
2.48$\times$ and 1.73$\times$ DNN inference acceleration on CIFAR-10 and
ImageNet dataset without accuracy loss.
- Abstract(参考訳): 軽量プルーニングは,モバイルデバイス上でリアルタイムディープニューラルネットワーク(DNN)推論を実現する上で,効果的なモデル圧縮手法である。
しかし, プレニング方式は, 精度劣化, ハードウェアアクセラレーションの難しさ, 特定のタイプのDNN層に対する制限などにより, 適用シナリオが限定されている。
本稿では,dnnの任意の層に適用可能な汎用的,きめ細かい構造的pruningスキームと対応するコンパイラ最適化を提案し,高い精度とハードウェア推論性能を実現する。
コンパイラ最適化によって実現される異なるレイヤに異なるプルーニングスキームを適用する柔軟性により、様々なプルーニングスキームの異なる加速度および精度性能を考慮した最適なプルーニングスキームを決定する新しい問題をさらに調査する。
与えられたDNNの各層に対して最適なプルーニング規則とブロックサイズを自動的に導出する2つのプルーニングスキームマッピング手法を提案する。
CIFAR-10およびImageNetデータセット上の2.48$\times$と1.73$\times$DNN推論アクセラレーションを精度の低下なく達成し,提案手法と一般のきめ細かな構造化プルーニング手法の併用により,最先端のDNN最適化フレームワークより優れていることを示す。
関連論文リスト
- Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - A Unified DNN Weight Compression Framework Using Reweighted Optimization
Methods [31.869228048294445]
指定された制約に縛られた動的に更新された正規化項を持つ統合DNN重み決定フレームワークを提案する。
また、異なるDNN圧縮タスクを組み合わせるための統合フレームワークにもメソッドを拡張します。
論文 参考訳(メタデータ) (2020-04-12T02:59:06Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z) - BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted
Regularization Method [69.49386965992464]
本稿では, 汎用的かつ柔軟な構造化プルーニング次元と, 強力かつ効率的な再加重正規化手法を組み合わせたブロック型プルーニングフレームワークを提案する。
我々のフレームワークは普遍的であり、CNNとRNNの両方に適用できる。
リアルタイムモバイルアクセラレーションと精度の妥協のないCNNとRNNの共通カバレッジを実現するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-01-23T03:30:56Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。