論文の概要: Pruning Deep Neural Networks via a Combination of the Marchenko-Pastur Distribution and Regularization
- arxiv url: http://arxiv.org/abs/2503.01922v1
- Date: Sun, 02 Mar 2025 05:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:29.545935
- Title: Pruning Deep Neural Networks via a Combination of the Marchenko-Pastur Distribution and Regularization
- Title(参考訳): Marchenko-Pastur分布と正則化を組み合わせた深層ニューラルネットワークの構築
- Authors: Leonid Berlyand, Theo Bourdais, Houman Owhadi, Yitzchak Shmalo,
- Abstract要約: 視覚変換器(ViT)は、画像分類のためのディープラーニング分野において、強力なモデルのクラスとして登場した。
重みと特異ベクトルのスパーシフィケーションに基づいて事前学習したDNNを刈り取るためのRandom Matrix Theory(RMT)に基づく新しい手法を提案する。
我々は,RTTを用いたプルーニングを用いて,精度1%未満の精度で,VTモデルのパラメータ数を30~50%削減できることを実証した。
- 参考スコア(独自算出の注目度): 0.18641315013048293
- License:
- Abstract: Deep neural networks (DNNs) have brought significant advancements in various applications in recent years, such as image recognition, speech recognition, and natural language processing. In particular, Vision Transformers (ViTs) have emerged as a powerful class of models in the field of deep learning for image classification. In this work, we propose a novel Random Matrix Theory (RMT)-based method for pruning pre-trained DNNs, based on the sparsification of weights and singular vectors, and apply it to ViTs. RMT provides a robust framework to analyze the statistical properties of large matrices, which has been shown to be crucial for understanding and optimizing the performance of DNNs. We demonstrate that our RMT-based pruning can be used to reduce the number of parameters of ViT models (trained on ImageNet) by 30-50\% with less than 1\% loss in accuracy. To our knowledge, this represents the state-of-the-art in pruning for these ViT models. Furthermore, we provide a rigorous mathematical underpinning of the above numerical studies, namely we proved a theorem for fully connected DNNs, and other more general DNN structures, describing how the randomness in the weight matrices of a DNN decreases as the weights approach a local or global minimum (during training). We verify this theorem through numerical experiments on fully connected DNNs, providing empirical support for our theoretical findings. Moreover, we prove a theorem that describes how DNN loss decreases as we remove randomness in the weight layers, and show a monotone dependence of the decrease in loss with the amount of randomness that we remove. Our results also provide significant RMT-based insights into the role of regularization during training and pruning.
- Abstract(参考訳): 近年、ディープニューラルネットワーク(DNN)は、画像認識、音声認識、自然言語処理など、様々な分野で大きな進歩を遂げている。
特に、視覚変換器(ViT)は、画像分類のためのディープラーニング分野において、強力なモデルのクラスとして登場した。
本研究では,重みと特異ベクトルの空間化に基づく事前学習DNNを刈り取るためのRandom Matrix Theory(RMT)に基づく新しい手法を提案し,それをViTに適用する。
RMTは、DNNの性能の理解と最適化に欠かせない大きな行列の統計特性を分析するための堅牢なフレームワークを提供する。
我々は,RTTを用いたプルーニングを用いて,精度が1\%未満のVTモデルのパラメータ数を30~50%削減できることを実証した。
我々の知る限り、これはこれらのViTモデルの刈り取りの最先端を表している。
さらに,DNNの重み行列のランダム性が局所的あるいは大域的最小値(訓練中)に近づくにつれてどのように減少するかを記述し,完全連結DNNや他の一般的なDNN構造に対する定理を証明した。
完全連結DNNの数値実験によりこの定理を検証し,理論的な知見を実証的に裏付ける。
さらに、重み層のランダム性を取り除くことによって、DNNの損失がどのように減少するかを示す定理を証明し、除去するランダム性の量による損失の減少の単調な依存性を示す。
また,本研究は,トレーニングおよび刈り込みにおける正規化の役割について,RTTに基づく重要な知見を提供する。
関連論文リスト
- Enhancing Accuracy in Deep Learning Using Random Matrix Theory [4.00671924018776]
深層ニューラルネットワーク(DNN)のトレーニングにおけるランダム行列理論(RMT)の適用について検討する。
数値計算の結果,DNNとCNNの精度は低下せず,パラメータの大幅な削減につながることが明らかとなった。
この結果から,より効率的かつ正確なディープラーニングモデル構築のためのRTTの実践的応用に関する貴重な知見が得られた。
論文 参考訳(メタデータ) (2023-10-04T21:17:31Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Deep Learning Weight Pruning with RMT-SVD: Increasing Accuracy and
Reducing Overfitting [0.0]
ディープニューラルネットワーク(DNN)の重み層のスペクトルをランダム行列理論(RMT)の手法を用いて研究・理解することができる。
本研究では,これらのRTT手法を用いて, DNNの重み付け層から, 特異値分解(SVD)を通して, どれ程の特異値を取り除くべきかを判断する。
MNISTで訓練した単純なDNNモデルについて,その結果を示す。
論文 参考訳(メタデータ) (2023-03-15T23:19:45Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Extended critical regimes of deep neural networks [0.0]
重み付き重みは、微調整パラメータを使わずに、拡張臨界状態の出現を可能にすることを示す。
この拡張クリティカルレジームでは、DNNは層間のリッチで複雑な伝播ダイナミクスを示す。
効率的なニューラルアーキテクチャの設計のための理論的ガイドを提供する。
論文 参考訳(メタデータ) (2022-03-24T10:15:50Z) - Tensor-Train Recurrent Neural Networks for Interpretable Multi-Way
Financial Forecasting [24.50116388903113]
recurrent neural networks(rnns)は、シーケンスモデリングのためのデファクト標準機械学習ツールである。
TT-RNN(TT-RNN)は、テンソルに固有の圧縮能力を介して、次元の呪いに対処する能力を有する。
TT因子の解析により, テンソル分解の基盤となる物理的意味は, TT-RNNモデルが結果の解釈可能性に役立つことを示す。
論文 参考訳(メタデータ) (2021-05-11T12:38:34Z) - Block-term Tensor Neural Networks [29.442026567710435]
ブロック終端テンソル層(BT層)は,CNNやRNNなどのニューラルネットワークモデルに容易に適用可能であることを示す。
CNNとRNNのBT層は、元のDNNの表現力を維持したり改善したりしながら、パラメータ数に対して非常に大きな圧縮比を達成することができる。
論文 参考訳(メタデータ) (2020-10-10T09:58:43Z) - A Fully Tensorized Recurrent Neural Network [48.50376453324581]
重み付けされたRNNアーキテクチャを導入し、各リカレントセル内の個別の重み付け行列を共同で符号化する。
このアプローチはモデルのサイズを数桁削減するが、通常のRNNと同等あるいは優れた性能を維持している。
論文 参考訳(メタデータ) (2020-10-08T18:24:12Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。