論文の概要: Compact Multi-level Sparse Neural Networks with Input Independent
Dynamic Rerouting
- arxiv url: http://arxiv.org/abs/2112.10930v1
- Date: Tue, 21 Dec 2021 01:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:22:51.245861
- Title: Compact Multi-level Sparse Neural Networks with Input Independent
Dynamic Rerouting
- Title(参考訳): 入力独立動的リルーティングを用いたコンパクト多レベルスパースニューラルネットワーク
- Authors: Minghai Qin, Tianyun Zhang, Fei Sun, Yen-Kuang Chen, Makan Fardad,
Yanzhi Wang, Yuan Xie
- Abstract要約: 疎いディープニューラルネットワークは、モデルの複雑さとメモリ消費を大幅に減らすことができる。
現実の課題に直面する中で,複数のスパースレベルをサポートするスパースモデルをトレーニングすることを提案する。
このようにして、推論中に適切なスパーシティレベルを動的に選択でき、ストレージコストを最小のスパースサブモデルで抑えることができる。
- 参考スコア(独自算出の注目度): 33.35713740886292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have shown to provide superb performance in many
real life applications, but their large computation cost and storage
requirement have prevented them from being deployed to many edge and
internet-of-things (IoT) devices. Sparse deep neural networks, whose majority
weight parameters are zeros, can substantially reduce the computation
complexity and memory consumption of the models. In real-use scenarios, devices
may suffer from large fluctuations of the available computation and memory
resources under different environment, and the quality of service (QoS) is
difficult to maintain due to the long tail inferences with large latency.
Facing the real-life challenges, we propose to train a sparse model that
supports multiple sparse levels. That is, a hierarchical structure of weights
are satisfied such that the locations and the values of the non-zero parameters
of the more-sparse sub-model area subset of the less-sparse sub-model. In this
way, one can dynamically select the appropriate sparsity level during
inference, while the storage cost is capped by the least sparse sub-model. We
have verified our methodologies on a variety of DNN models and tasks, including
the ResNet-50, PointNet++, GNMT, and graph attention networks. We obtain sparse
sub-models with an average of 13.38% weights and 14.97% FLOPs, while the
accuracies are as good as their dense counterparts. More-sparse sub-models with
5.38% weights and 4.47% of FLOPs, which are subsets of the less-sparse ones,
can be obtained with only 3.25% relative accuracy loss.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、多くの実生活アプリケーションで最高のパフォーマンスを提供することを示したが、その大きな計算コストとストレージ要件により、多くのエッジやIoTデバイスへのデプロイを妨げている。
大部分の重みパラメータがゼロであるスパースディープニューラルネットワークは、モデルの計算複雑性とメモリ消費を大幅に削減することができる。
リアルタイムのシナリオでは、デバイスは異なる環境下で利用可能な計算とメモリリソースの大きなゆらぎに悩まされ、サービス品質(QoS)は大きな遅延を伴う長いテール推論のために維持が困難である。
実生活の課題に直面し,複数のスパースレベルをサポートするスパースモデルをトレーニングすることを提案する。
すなわち、重みの階層構造は、よりスパースなサブモデルのよりスパースなサブモデル領域サブセットの非ゼロパラメータの位置と値が満たされる。
このようにして、推論中に適切なスパーシティレベルを動的に選択でき、ストレージコストを最小のスパースサブモデルで抑えることができる。
我々は,ResNet-50,PointNet++,GNMT,グラフアテンションネットワークなど,さまざまなDNNモデルとタスクに関する方法論を検証する。
平均重量が13.38%、FLOPが14.97%のスパースサブモデルを得る一方、精度は密度の高いモデルと同程度である。
5.38%の重量と4.47%のFLOPを持つよりスパースなサブモデルは、3.25%の精度でしか得られない。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Neural Networks at a Fraction with Pruned Quaternions [0.0]
プルーニングは、不要な重量を取り除き、トレーニングと推論のリソース要求を減らす1つの手法である。
入力データが多次元であるMLタスクでは、複素数や四元数などの高次元データ埋め込みを用いることで、精度を維持しながらパラメータ数を削減することが示されている。
いくつかのアーキテクチャでは、非常に高い空間レベルにおいて、四元数モデルは実際のアーキテクチャよりも高い精度を提供する。
論文 参考訳(メタデータ) (2023-08-13T14:25:54Z) - LilNetX: Lightweight Networks with EXtreme Model Compression and
Structured Sparsification [36.651329027209634]
LilNetXは、ニューラルネットワークのためのエンドツーエンドのトレーニング可能なテクニックである。
特定の精度-レート-計算トレードオフを持つ学習モデルを可能にする。
論文 参考訳(メタデータ) (2022-04-06T17:59:10Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - NL-CNN: A Resources-Constrained Deep Learning Model based on Nonlinear
Convolution [0.0]
NL-CNNと略される新しい畳み込みニューラルネットワークモデルが提案され、非線型畳み込みは畳み込み+非線形性層のカスケードでエミュレートされる。
いくつかの広く知られているデータセットのパフォーマンス評価が提供され、いくつかの関連する特徴を示している。
論文 参考訳(メタデータ) (2021-01-30T13:38:42Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。