論文の概要: Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2112.10898v1
- Date: Mon, 20 Dec 2021 22:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 00:31:43.384289
- Title: Load-balanced Gather-scatter Patterns for Sparse Deep Neural Networks
- Title(参考訳): スパースディープニューラルネットワークにおける負荷バランス付きガザ散乱パターン
- Authors: Fei Sun, Minghai Qin, Tianyun Zhang, Xiaolong Ma, Haoran Li, Junwen
Luo, Zihao Zhao, Yen-Kuang Chen, Yuan Xie
- Abstract要約: モデル重み付けにゼロを導入する方法として, モデル精度と計算効率のトレードオフを良好に提供する方法として, プルーニングが有効であることが示されている。
現代のプロセッサには、高速なオンチップスクラッチパッドメモリと、間接的に負荷を発生させ、そのようなメモリ上の操作を格納する集/散乱エンジンが備わっている。
本研究では,スクラッチパッドメモリと集合/散乱エンジンを利用して,ニューラルネットワークの推論を高速化する,新しいスパースパターン(GSパターン)を提案する。
- 参考スコア(独自算出の注目度): 20.374784902476318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks (DNNs) have been proven to be effective in solving many
real-life problems, but its high computation cost prohibits those models from
being deployed to edge devices. Pruning, as a method to introduce zeros to
model weights, has shown to be an effective method to provide good trade-offs
between model accuracy and computation efficiency, and is a widely-used method
to generate compressed models. However, the granularity of pruning makes
important trade-offs. At the same sparsity level, a coarse-grained structured
sparse pattern is more efficient on conventional hardware but results in worse
accuracy, while a fine-grained unstructured sparse pattern can achieve better
accuracy but is inefficient on existing hardware.
On the other hand, some modern processors are equipped with fast on-chip
scratchpad memories and gather/scatter engines that perform indirect load and
store operations on such memories. In this work, we propose a set of novel
sparse patterns, named gather-scatter (GS) patterns, to utilize the scratchpad
memories and gather/scatter engines to speed up neural network inferences.
Correspondingly, we present a compact sparse format. The proposed set of sparse
patterns, along with a novel pruning methodology, address the load imbalance
issue and result in models with quality close to unstructured sparse models and
computation efficiency close to structured sparse models. Our experiments show
that GS patterns consistently make better trade-offs between accuracy and
computation efficiency compared to conventional structured sparse patterns. GS
patterns can reduce the runtime of the DNN components by two to three times at
the same accuracy levels. This is confirmed on three different deep learning
tasks and popular models, namely, GNMT for machine translation, ResNet50 for
image recognition, and Japser for acoustic speech recognition.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は多くの現実の問題を解決するのに有効であることが証明されているが、その高い計算コストは、それらのモデルをエッジデバイスにデプロイすることを妨げている。
モデル重み付けにゼロを導入する方法として,プレニングはモデル精度と計算効率の良好なトレードオフを提供するための有効な方法であり,圧縮モデルを生成するために広く用いられている方法である。
しかし、刈り取りの粒度は重要なトレードオフをもたらす。
同じ疎度レベルでは、粗粒構造スパースパターンは従来のハードウェアではより効率的であるが、粗粒構造スパースパターンはより精度が良く、既存のハードウェアでは非効率である。
一方、いくつかの現代的なプロセッサは、高速オンチップスクラッチパッドメモリと、そのようなメモリ上で間接的な負荷と格納操作を行う収集/散乱エンジンを備えている。
本研究では,スクラッチパッドメモリを活用し,ニューラルネットワークの推論を高速化するために,新たなスパースパターンであるgage-scatter(gs)パターンを提案する。
それに応じて、コンパクトなスパースフォーマットを提示します。
提案するスパースパターンセットは,新しいプルーニング手法とともに負荷不均衡問題に対処し,非構造化スパースモデルに近い品質のモデルと,構造化スパースモデルに近い計算効率をもたらす。
実験の結果,GSパターンは従来のスパースパターンに比べて精度と計算効率のトレードオフが良好であることがわかった。
GSパターンはDNNコンポーネントのランタイムを2~3倍の精度で削減することができる。
これは3つの異なるディープラーニングタスクと一般的なモデル、すなわち機械翻訳のGNMT、画像認識のResNet50、音響音声認識のJapserで確認されている。
関連論文リスト
- Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Balancing Accuracy and Latency in Multipath Neural Networks [0.09668407688201358]
我々は,一発のニューラルネットワーク探索モデルを用いて,難解な数のニューラルネットワークの性能を暗黙的に評価する。
本手法は,待ち時間が異なるモデル間の相対性能を正確にモデル化し,異なるデータセットをまたいだ精度で未検出モデルの性能を予測できることを示す。
論文 参考訳(メタデータ) (2021-04-25T00:05:48Z) - Computation on Sparse Neural Networks: an Inspiration for Future
Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。
本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。
実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文 参考訳(メタデータ) (2020-04-24T19:13:50Z) - An Image Enhancing Pattern-based Sparsity for Real-time Inference on
Mobile Devices [58.62801151916888]
パターンと接続性を組み合わせた新しい空間空間,すなわちパターンベースの空間空間を導入し,高度に正確かつハードウェアに親しみやすいものにした。
新たなパターンベースの空間性に対する我々のアプローチは,モバイルプラットフォーム上での高効率DNN実行のためのコンパイラ最適化に自然に適合する。
論文 参考訳(メタデータ) (2020-01-20T16:17:36Z) - Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。
我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。
本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文 参考訳(メタデータ) (2020-01-09T17:00:21Z) - Lightweight Residual Densely Connected Convolutional Neural Network [18.310331378001397]
畳み込みニューラルネットワークの深い監督, 効率的な勾配流, 特徴再利用能力を保証するために, 軽量な高密度連結ブロックを提案する。
提案手法は,特別なハードウェア・ソフトウェア機器を使わずに,トレーニングと推論のコストを低減させる。
論文 参考訳(メタデータ) (2020-01-02T17:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。