論文の概要: Concurrent Training and Layer Pruning of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2406.04549v1
- Date: Thu, 6 Jun 2024 23:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 17:47:54.351280
- Title: Concurrent Training and Layer Pruning of Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークの同時学習とレイヤープルーニング
- Authors: Valentin Frank Ingmar Guenter, Athanasios Sideris,
- Abstract要約: トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an algorithm capable of identifying and eliminating irrelevant layers of a neural network during the early stages of training. In contrast to weight or filter-level pruning, layer pruning reduces the harder to parallelize sequential computation of a neural network. We employ a structure using residual connections around nonlinear network sections that allow the flow of information through the network once a nonlinear section is pruned. Our approach is based on variational inference principles using Gaussian scale mixture priors on the neural network weights and allows for substantial cost savings during both training and inference. More specifically, the variational posterior distribution of scalar Bernoulli random variables multiplying a layer weight matrix of its nonlinear sections is learned, similarly to adaptive layer-wise dropout. To overcome challenges of concurrent learning and pruning such as premature pruning and lack of robustness with respect to weight initialization or the size of the starting network, we adopt the "flattening" hyper-prior on the prior parameters. We prove that, as a result of its usage, the solutions of the resulting optimization problem describe deterministic networks with parameters of the posterior distribution at either 0 or 1. We formulate a projected SGD algorithm and prove its convergence to such a solution using stochastic approximation results. In particular, we prove conditions that lead to a layer's weights converging to zero and derive practical pruning conditions from the theoretical results. The proposed algorithm is evaluated on the MNIST, CIFAR-10 and ImageNet datasets and common LeNet, VGG16 and ResNet architectures. The simulations demonstrate that our method achieves state-of the-art performance for layer pruning at reduced computational cost in distinction to competing methods due to the concurrent training and pruning.
- Abstract(参考訳): トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
重みやフィルタレベルのプルーニングとは対照的に、層プルーニングはニューラルネットワークの逐次計算の並列化を難しくする。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを許容する,非線形ネットワーク区間周辺の残差接続を用いた構造を用いる。
我々のアプローチは、ニューラルネットワークの重み付けに先立ってガウススケールの混合を用いた変分推論の原理に基づいており、トレーニングと推論の両方において大幅なコスト削減を可能にしている。
より具体的には、スカラーベルヌーイ確率変数の変動後分布がその非線形断面の層重み行列を乗じて学習する。
重み初期化や開始ネットワークの大きさに関して,未熟な刈り込みや頑健さの欠如といった同時学習や刈り込みの課題を克服するため,先行パラメータに "フラット化" ハイパープライアを採用する。
その結果、最適化問題の解は、後続分布のパラメータが 0 または 1 のいずれかである決定論的ネットワークを記述していることが証明された。
予測されたSGDアルゴリズムを定式化し、確率近似結果を用いてその解への収束性を証明する。
特に、ゼロに収束する層の重みにつながる条件を証明し、理論的結果から実用的なプルーニング条件を導出する。
提案アルゴリズムは,MNIST,CIFAR-10,ImageNetデータセットおよび一般的なLeNet,VGG16,ResNetアーキテクチャを用いて評価する。
シミュレーションにより,本手法は並列学習とプルーニングにより競合する手法と区別し,計算コストを低減したレイヤープルーニングの最先端性能を実現することを示す。
関連論文リスト
- Complexity-Aware Training of Deep Neural Networks for Optimal Structure Discovery [0.0]
本稿では、トレーニング中に、トレーニング済みのネットワークを適用することなく機能するディープニューラルネットワークのユニット/フィルタとレイヤプルーニングを組み合わせた新しいアルゴリズムを提案する。
提案アルゴリズムは,3つのパラメータのみを用いて,層対単位/フィルタプルーニングと計算量対パラメータ複雑性のバランスを保ちながら,学習精度とプルーニングレベルを最適に交換する。
論文 参考訳(メタデータ) (2024-11-14T02:00:22Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Layer Adaptive Node Selection in Bayesian Neural Networks: Statistical
Guarantees and Implementation Details [0.5156484100374059]
スパースディープニューラルネットワークは、大規模研究において予測モデル構築に効率的であることが証明されている。
本稿では,スパイク・アンド・スラブ型ガウス先行法を用いて,訓練中のノード選択を可能にするベイズスパース解を提案する。
本研究は, 先行パラメータのキャラクタリゼーションとともに, 変動的後続一貫性の基本的な結果を確立する。
論文 参考訳(メタデータ) (2021-08-25T00:48:07Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。