論文の概要: DNNShifter: An Efficient DNN Pruning System for Edge Computing
- arxiv url: http://arxiv.org/abs/2309.06973v1
- Date: Wed, 13 Sep 2023 14:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 13:59:42.622881
- Title: DNNShifter: An Efficient DNN Pruning System for Edge Computing
- Title(参考訳): DNNShifter:エッジコンピューティングのための効率的なDNNプルーニングシステム
- Authors: Bailey J. Eccles, Philip Rodgers, Peter Kilpatrick, Ivor Spence,
Blesson Varghese
- Abstract要約: ディープニューラルネットワーク(DNN)は多くの機械学習アプリケーションを支える。
生産品質のDNNモデルは、膨大なリソースフットプリントを持つ数百万のDNNパラメータをトレーニングすることで、高い推論精度を達成する。
これは、計算資源やメモリ資源が限られているモバイルや組み込みデバイスのような、ネットワークの極端で運用するリソースにとっての課題である。
既存のプルーニング手法は、大幅な時間コストとオーバーヘッドを伴わず、未処理のプルーニングモデルと同じような品質のモデルを提供できないか、オフラインのユースケースに限定される。
我々の研究は、原モデルの精度を維持しつつ、適切なモデル変種を迅速に導き出す。
- 参考スコア(独自算出の注目度): 1.853502789996996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) underpin many machine learning applications.
Production quality DNN models achieve high inference accuracy by training
millions of DNN parameters which has a significant resource footprint. This
presents a challenge for resources operating at the extreme edge of the
network, such as mobile and embedded devices that have limited computational
and memory resources. To address this, models are pruned to create lightweight,
more suitable variants for these devices. Existing pruning methods are unable
to provide similar quality models compared to their unpruned counterparts
without significant time costs and overheads or are limited to offline use
cases. Our work rapidly derives suitable model variants while maintaining the
accuracy of the original model. The model variants can be swapped quickly when
system and network conditions change to match workload demand. This paper
presents DNNShifter, an end-to-end DNN training, spatial pruning, and model
switching system that addresses the challenges mentioned above. At the heart of
DNNShifter is a novel methodology that prunes sparse models using structured
pruning. The pruned model variants generated by DNNShifter are smaller in size
and thus faster than dense and sparse model predecessors, making them suitable
for inference at the edge while retaining near similar accuracy as of the
original dense model. DNNShifter generates a portfolio of model variants that
can be swiftly interchanged depending on operational conditions. DNNShifter
produces pruned model variants up to 93x faster than conventional training
methods. Compared to sparse models, the pruned model variants are up to 5.14x
smaller and have a 1.67x inference latency speedup, with no compromise to
sparse model accuracy. In addition, DNNShifter has up to 11.9x lower overhead
for switching models and up to 3.8x lower memory utilisation than existing
approaches.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は多くの機械学習アプリケーションを支える。
生産品質のDNNモデルは、膨大なリソースフットプリントを持つ数百万のDNNパラメータをトレーニングすることで、高い推論精度を達成する。
これは、計算資源やメモリ資源が限られているモバイルや組み込みデバイスなど、ネットワークの極端で運用するリソースに対する課題である。
これに対処するため、モデルはプルーニングされ、これらのデバイスに対してより軽量でより適切なバリエーションが作成される。
既存のプルーニング手法では、大幅な時間コストとオーバーヘッドを伴わず、未処理のプルーニングモデルと同じような品質のモデルを提供できない。
我々の研究は、原モデルの精度を維持しながら、適切なモデル変種を迅速に導き出す。
システムとネットワークの条件が変更されてワークロードの要求に合わせると、モデル変種は迅速に交換できる。
本稿では,DNNShifter,DNNトレーニング,空間プルーニング,モデル切替システムについて述べる。
DNNShifterの中心となるのは、構造化プルーニングを使ってスパースモデルを作成する新しい方法論である。
dnnshifterが生成するprunedモデル変種は、サイズが小さく、密度の高いモデルよりも高速で、エッジでの推論に適しており、元の高密度モデルとほぼ同様の精度を維持している。
DNNShifterは、運用条件に応じて迅速に交換可能なモデル変種ポートフォリオを生成する。
DNNShifterは、従来の訓練方法の最大93倍の速度でプルーニングモデルを生成する。
スパースモデルと比較して、プルーンドモデルの変種は最大5.14倍小さく、1.67倍の推論遅延速度を持ち、スパースモデルの精度に妥協はない。
さらに、DNNShifterはスイッチングモデルのオーバーヘッドを最大1.9倍、既存のアプローチよりも最大3.8倍も低い。
関連論文リスト
- Update Compression for Deep Neural Networks on the Edge [33.57905298104467]
エッジデバイス上でのディープニューラルネットワーク(DNN)の実行を含むAIアプリケーションの増加。
多くの実用的な理由は、デプロイ後のエッジデバイスでDNNモデルを更新する必要性を動機付けている。
モデル更新を圧縮するための行列分解に基づく簡単なアプローチを開発する。
論文 参考訳(メタデータ) (2022-03-09T04:20:43Z) - Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks [20.374784902476318]
モデル重み付けにゼロを導入する方法として, モデル精度と計算効率のトレードオフを良好に提供する方法として, プルーニングが有効であることが示されている。
現代のプロセッサには、高速なオンチップスクラッチパッドメモリと、間接的に負荷を発生させ、そのようなメモリ上の操作を格納する集/散乱エンジンが備わっている。
本研究では,スクラッチパッドメモリと集合/散乱エンジンを利用して,ニューラルネットワークの推論を高速化する,新しいスパースパターン(GSパターン)を提案する。
論文 参考訳(メタデータ) (2021-12-20T22:55:45Z) - LegoDNN: Block-grained Scaling of Deep Neural Networks for Mobile Vision [27.74191483754982]
モバイルビジョンシステムでマルチDNNワークロードを実行するための,ブロック粒度のスケーリングソリューションであるLegoDNNを提案する。
LegoDNNは、少数の共通ブロックを抽出し、トレーニングするだけで、短いモデルのトレーニング時間を保証します。
LegoDNNはトレーニング時間を増やすことなく,モデルサイズの1,296倍から279,936倍のオプションを提供する。
論文 参考訳(メタデータ) (2021-12-18T06:04:03Z) - Omni-sparsity DNN: Fast Sparsity Optimization for On-Device Streaming
E2E ASR via Supernet [24.62661549442265]
我々は,Omni-sparsity DNNを提案する。そこでは,1つのニューラルネットワークを切断して,広範囲のモデルサイズに対して最適化されたモデルを生成する。
以上の結果から,LibriSpeechのトレーニング時間とリソースの保存時間は,個別のプルーニングモデルと比較すると,類似あるいは精度がよいことがわかった。
論文 参考訳(メタデータ) (2021-10-15T20:28:27Z) - Fully Spiking Variational Autoencoder [66.58310094608002]
スパイキングニューラルネットワーク(SNN)は、超高速で超低エネルギー消費のニューロモルフィックデバイス上で動作することができる。
本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。
論文 参考訳(メタデータ) (2021-09-26T06:10:14Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。