論文の概要: A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation
- arxiv url: http://arxiv.org/abs/2206.05604v1
- Date: Sat, 11 Jun 2022 20:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 15:02:16.881421
- Title: A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation
- Title(参考訳): スパース線形近似によるニューラルネットワーク圧縮の理論的理解
- Authors: Wenjing Yang, Ganghua Wang, Enmao Diao, Vahid Tarokh, Jie Ding, Yuhong
Yang
- Abstract要約: モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 37.525277809849776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of model compression is to reduce the size of a large neural network
while retaining a comparable performance. As a result, computation and memory
costs in resource-limited applications may be significantly reduced by dropping
redundant weights, neurons, or layers. There have been many model compression
algorithms proposed that provide impressive empirical success. However, a
theoretical understanding of model compression is still limited. One problem is
understanding if a network is more compressible than another of the same
structure. Another problem is quantifying how much one can prune a network with
theoretically guaranteed accuracy degradation. In this work, we propose to use
the sparsity-sensitive $\ell_q$-norm ($0<q<1$) to characterize compressibility
and provide a relationship between soft sparsity of the weights in the network
and the degree of compression with a controlled accuracy degradation bound. We
also develop adaptive algorithms for pruning each neuron in the network
informed by our theory. Numerical studies demonstrate the promising performance
of the proposed methods compared with standard pruning algorithms.
- Abstract(参考訳): モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことである。
その結果、リソース制限されたアプリケーションの計算とメモリコストは、冗長な重み、ニューロン、または層を落として大幅に削減される。
実験的な成功をもたらすモデル圧縮アルゴリズムが多数提案されている。
しかし、モデル圧縮に関する理論的理解はまだ限られている。
一つの問題は、ネットワークが同じ構造の他のネットワークよりも圧縮性が高いかどうかを理解することである。
もう1つの問題は、理論上、精度の低下を保証されたネットワークをどれだけ掘り起こせるかの定量化である。
本研究では,ネットワーク内の重みのソフトなスパース性と圧縮度との関係について,圧縮性特性を特徴付けるために,sparsityに敏感な$\ell_q$-norm (0<q<1$) を用いることを提案する。
また,ネットワーク内の各ニューロンをプルーニングする適応アルゴリズムも開発した。
数値実験により,提案手法の有望な性能を標準プルーニングアルゴリズムと比較した。
関連論文リスト
- "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - Fast Conditional Network Compression Using Bayesian HyperNetworks [54.06346724244786]
条件付き圧縮問題を導入し、それに取り組むための高速なフレームワークを提案する。
問題は、トレーニング済みの大規模ニューラルネットワークをターゲットコンテキストに応じて最適な小さなネットワークに素早く圧縮する方法である。
提案手法は, ベースライン方式よりもはるかに小型の圧縮ネットワークを高速に生成できる。
論文 参考訳(メタデータ) (2022-05-13T00:28:35Z) - Low-rank Tensor Decomposition for Compression of Convolutional Neural
Networks Using Funnel Regularization [1.8579693774597708]
低ランクテンソル分解を用いた事前学習ネットワークを圧縮するモデル削減手法を提案する。
圧縮中の重要でない要因を抑えるために, ファンネル関数と呼ばれる新しい正規化法を提案する。
ImageNet2012のResNet18では、GMACの精度は0.7%に過ぎず、Top-1の精度はわずかに低下する。
論文 参考訳(メタデータ) (2021-12-07T13:41:51Z) - Low-Rank+Sparse Tensor Compression for Neural Networks [11.632913694957868]
本稿では,低ランクテンソル分解とスパースプルーニングを組み合わせることで,圧縮の粗さと微細構造を両立させることを提案する。
我々はSOTAアーキテクチャ(MobileNetv3、EfficientNet、Vision Transformer)の重みを圧縮し、この手法をスパースプルーニングとテンソル分解だけで比較する。
論文 参考訳(メタデータ) (2021-11-02T15:55:07Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Compressing Neural Networks: Towards Determining the Optimal Layer-wise
Decomposition [62.41259783906452]
本稿では,ディープニューラルネットワークのための新しいグローバル圧縮フレームワークを提案する。
各層を自動的に解析し、最適な層間圧縮比を特定する。
我々の結果は、現代のニューラルネットワークのグローバルなパフォーマンス-サイズトレードオフに関する将来の研究のための新たな道を開く。
論文 参考訳(メタデータ) (2021-07-23T20:01:30Z) - Heavy Tails in SGD and Compressibility of Overparametrized Neural
Networks [9.554646174100123]
本研究では, 勾配降下学習アルゴリズムの力学が圧縮性ネットワークの獲得に重要な役割を担っていることを示す。
我々は,ネットワークが「$ell_p$-compressible」であることが保証され,ネットワークサイズが大きくなるにつれて,異なるプルーニング手法の圧縮誤差が任意に小さくなることを示す。
論文 参考訳(メタデータ) (2021-06-07T17:02:59Z) - Successive Pruning for Model Compression via Rate Distortion Theory [15.598364403631528]
NN圧縮を情報理論的手法を用いて検討し, NN圧縮の理論的限界を達成するために, 速度歪み理論がプルーニングを示唆していることを示す。
我々の導出は、新しいプルーニング戦略を含むエンドツーエンドの圧縮パイプラインも提供する。
本手法は,既存のプルーニング戦略を一貫して上回り,プルーニングモデルのサイズを2.5倍小さくする。
論文 参考訳(メタデータ) (2021-02-16T18:17:57Z) - Pruning and Quantization for Deep Neural Network Acceleration: A Survey [2.805723049889524]
ディープニューラルネットワークは、コンピュータビジョンの分野で異常な能力を示す多くのアプリケーションに応用されている。
複雑なネットワークアーキテクチャは効率的なリアルタイムデプロイメントに挑戦し、計算資源とエネルギーコストを必要とする。
本稿では,pruning と quantization の2種類のネットワーク圧縮に関する調査を行う。
論文 参考訳(メタデータ) (2021-01-24T08:21:04Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。