論文の概要: Exploiting Non-Linear Redundancy for Neural Model Compression
- arxiv url: http://arxiv.org/abs/2005.14070v1
- Date: Thu, 28 May 2020 15:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 04:45:07.423813
- Title: Exploiting Non-Linear Redundancy for Neural Model Compression
- Title(参考訳): ニューラルモデル圧縮における非線形冗長性の利用
- Authors: Muhammad A. Shah, Raphael Olivier and Bhiksha Raj
- Abstract要約: 本稿では,線形依存の活用に基づく新しいモデル圧縮手法を提案する。
その結果,ネットワークサイズが最大99%減少し,性能が低下することがわかった。
- 参考スコア(独自算出の注目度): 26.211513643079993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying deep learning models, comprising of non-linear combination of
millions, even billions, of parameters is challenging given the memory, power
and compute constraints of the real world. This situation has led to research
into model compression techniques most of which rely on suboptimal heuristics
and do not consider the parameter redundancies due to linear dependence between
neuron activations in overparametrized networks. In this paper, we propose a
novel model compression approach based on exploitation of linear dependence,
that compresses networks by elimination of entire neurons and redistribution of
their activations over other neurons in a manner that is provably lossless
while training. We combine this approach with an annealing algorithm that may
be applied during training, or even on a trained model, and demonstrate, using
popular datasets, that our method results in a reduction of up to 99\% in
overall network size with small loss in performance. Furthermore, we provide
theoretical results showing that in overparametrized, locally linear (ReLU)
neural networks where redundant features exist, and with correct hyperparameter
selection, our method is indeed able to capture and suppress those
dependencies.
- Abstract(参考訳): 現実世界のメモリ、パワー、計算の制約を考えると、数百万、何十億というパラメータの非線形組み合わせからなるディープラーニングモデルのデプロイは困難である。
この状況はモデル圧縮技術の研究を導いており、そのほとんどが準最適ヒューリスティックに依存しており、超パラメータネットワークにおけるニューロン活性化の線形依存性によるパラメータ冗長性を考慮していない。
本稿では, 線形依存の活用に基づく新しいモデル圧縮手法を提案する。これは, 学習中に, ニューロン全体の除去と他のニューロンへの活性化の再分配により, ネットワークを圧縮するものである。
このアプローチをトレーニング中に,あるいはトレーニングされたモデル上でも適用可能なアニーリングアルゴリズムと組み合わせることで,一般的なデータセットを用いて,本手法がネットワークサイズ全体の最大99倍の削減を実現し,性能の低下を実証する。
さらに,冗長な特徴が存在する過パラメータ化,局所線形(relu)ニューラルネットワークでは,ハイパーパラメータ選択が正しければ,その依存性をキャプチャして抑制できることを示す理論的結果を提供する。
関連論文リスト
- Chain of Compression: A Systematic Approach to Combinationally Compress Convolutional Neural Networks [3.309813585671485]
畳み込みニューラルネットワーク(CNN)は非常に人気があるが、その計算とメモリの強度は、リソース制約の計算システムに課題をもたらす。
量子化、プルーニング、早期出口、知識蒸留といった多くのアプローチは、ニューラルネットワークの冗長性を減少させる効果を示している。
本稿では、ニューラルネットワークの圧縮にこれらの一般的な手法を適用するために、組み合わせシーケンスで動作する圧縮の連鎖を提案する。
論文 参考訳(メタデータ) (2024-03-26T07:26:00Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - Quiver neural networks [5.076419064097734]
ニューラルネットワーク接続アーキテクチャの解析に対する一様理論的アプローチを開発する。
数学におけるquiver表現理論にインスパイアされたこのアプローチは、精巧なデータフローを捉えるためのコンパクトな方法を与える。
論文 参考訳(メタデータ) (2022-07-26T09:42:45Z) - Non-linear manifold ROM with Convolutional Autoencoders and Reduced
Over-Collocation method [0.0]
非アフィンパラメトリックな依存、非線形性、興味のモデルにおける対流支配的な規則は、ゆっくりとしたコルモゴロフ n-幅の崩壊をもたらす。
我々は,Carlbergらによって導入された非線形多様体法を,オーバーコロケーションの削減とデコーダの教師/学生による学習により実現した。
本研究では,2次元非線形保存法と2次元浅水モデルを用いて方法論を検証し,時間とともに動的に進化する純粋データ駆動型手法と長期記憶ネットワークとの比較を行った。
論文 参考訳(メタデータ) (2022-03-01T11:16:50Z) - Neuron-based Pruning of Deep Neural Networks with Better Generalization
using Kronecker Factored Curvature Approximation [18.224344440110862]
提案アルゴリズムは、ヘッセンのスペクトル半径を探索することにより、圧縮されたモデルのパラメータを平らな解へ向ける。
以上の結果から, ニューロン圧縮における最先端の結果が向上することが示唆された。
この手法は、異なるニューラルネットワークモデル間で小さな精度で、非常に小さなネットワークを実現することができる。
論文 参考訳(メタデータ) (2021-11-16T15:55:59Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Network Diffusions via Neural Mean-Field Dynamics [52.091487866968286]
本稿では,ネットワーク上の拡散の推論と推定のための新しい学習フレームワークを提案する。
本研究の枠組みは, ノード感染確率の正確な進化を得るために, モリ・ズワンジッヒ形式から導かれる。
我々のアプローチは、基礎となる拡散ネットワークモデルのバリエーションに対して多用途で堅牢である。
論文 参考訳(メタデータ) (2020-06-16T18:45:20Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Residual Continual Learning [33.442903467864966]
我々はResidual Continual Learning(ResCL)と呼ばれる新しい連続学習手法を提案する。
本手法は,複数のタスクの逐次学習において,元のネットワーク以外のソースタスク情報なしで破滅的な忘れ現象を防止できる。
提案手法は,様々な連続学習シナリオにおける最先端性能を示す。
論文 参考訳(メタデータ) (2020-02-17T05:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。