論文の概要: Quantisation and Pruning for Neural Network Compression and
Regularisation
- arxiv url: http://arxiv.org/abs/2001.04850v1
- Date: Tue, 14 Jan 2020 15:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:07:30.788044
- Title: Quantisation and Pruning for Neural Network Compression and
Regularisation
- Title(参考訳): ニューラルネットワーク圧縮と正規化のための量子化とプルーニング
- Authors: Kimessha Paupamah, Steven James, Richard Klein
- Abstract要約: ディープニューラルネットワークは計算コストが大きすぎて、コンシューマグレードのハードウェアや低消費電力のデバイス上でリアルタイムで動作できない。
ニューラルネットワークの計算とメモリ要件の低減を,ネットワークプルーニングと量子化によって検討する。
- 参考スコア(独自算出の注目度): 2.320417845168326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are typically too computationally expensive to run in
real-time on consumer-grade hardware and low-powered devices. In this paper, we
investigate reducing the computational and memory requirements of neural
networks through network pruning and quantisation. We examine their efficacy on
large networks like AlexNet compared to recent compact architectures:
ShuffleNet and MobileNet. Our results show that pruning and quantisation
compresses these networks to less than half their original size and improves
their efficiency, particularly on MobileNet with a 7x speedup. We also
demonstrate that pruning, in addition to reducing the number of parameters in a
network, can aid in the correction of overfitting.
- Abstract(参考訳): ディープニューラルネットワークは通常、計算コストがかかりすぎて、コンシューマ級のハードウェアや低消費電力デバイスでリアルタイムに動作できない。
本稿では,ネットワークプルーニングと量子化によるニューラルネットワークの計算・メモリ要件の低減について検討する。
最近のコンパクトアーキテクチャであるShuffleNetやMobileNetと比較して,AlexNetのような大規模ネットワーク上での有効性を検討する。
その結果,pruning と quantization は,これらのネットワークを元の半分以下のサイズに圧縮し,その効率,特に mobilenet の7倍の高速化を実現している。
また,ネットワーク内のパラメータ数を減らすことに加えて,プルーニングがオーバーフィッティングの修正に役立つことを実証した。
関連論文リスト
- A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。
ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。
結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文 参考訳(メタデータ) (2023-08-28T14:19:13Z) - Leveraging Structured Pruning of Convolutional Neural Networks [2.2320512724449233]
本稿では,任意の構造化プルーニングマスクを用いて,これらの問題に遭遇しないネットワークを生成する手法を提案する。
我々は, 畳み込み畳み込みニューラルネットワークによる, 組込みハードウェア上でのエネルギー消費と推定時間の利得を示す。
論文 参考訳(メタデータ) (2022-06-13T15:29:12Z) - Fast Conditional Network Compression Using Bayesian HyperNetworks [54.06346724244786]
条件付き圧縮問題を導入し、それに取り組むための高速なフレームワークを提案する。
問題は、トレーニング済みの大規模ニューラルネットワークをターゲットコンテキストに応じて最適な小さなネットワークに素早く圧縮する方法である。
提案手法は, ベースライン方式よりもはるかに小型の圧縮ネットワークを高速に生成できる。
論文 参考訳(メタデータ) (2022-05-13T00:28:35Z) - Self-Compression in Bayesian Neural Networks [0.9176056742068814]
ベイジアンフレームワークによるネットワーク圧縮に関する新たな知見を提案する。
ベイズニューラルネットワークがモデルパラメータの冗長性を自動的に検出し,自己圧縮を可能にすることを示す。
実験の結果,ネットワーク自体が特定したパラメータを削除することで,ネットワークアーキテクチャの圧縮に成功できることが示唆された。
論文 参考訳(メタデータ) (2021-11-10T21:19:40Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - AdderNet and its Minimalist Hardware Design for Energy-Efficient
Artificial Intelligence [111.09105910265154]
アドラー畳み込みニューラルネットワーク(AdderNet)を用いた新しいミニマリストハードウェアアーキテクチャを提案する。
AdderNet全体の16%の高速化を実現している。
我々は、AdderNetが他の競争相手を追い越せると結論付けている。
論文 参考訳(メタデータ) (2021-01-25T11:31:52Z) - ItNet: iterative neural networks with small graphs for accurate and
efficient anytime prediction [1.52292571922932]
本研究では,計算グラフの観点から,メモリフットプリントが小さいネットワークモデルについて紹介する。
CamVidおよびCityscapesデータセットでセマンティックセグメンテーションの最新の結果を示します。
論文 参考訳(メタデータ) (2021-01-21T15:56:29Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Switchable Precision Neural Networks [35.2752928147013]
複数の量子化レベルで動作可能な共有ネットワークをトレーニングするために,スイッチブル精密ニューラルネットワーク(SP-Nets)を提案する。
実行時に、ネットワークは、インスタントメモリ、レイテンシ、消費電力、精度要求に応じて、オンザフライで精度を調整することができる。
論文 参考訳(メタデータ) (2020-02-07T14:43:44Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。