論文の概要: Importance Estimation with Random Gradient for Neural Network Pruning
- arxiv url: http://arxiv.org/abs/2310.20203v1
- Date: Tue, 31 Oct 2023 06:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:22:49.256776
- Title: Importance Estimation with Random Gradient for Neural Network Pruning
- Title(参考訳): ニューラルネットワークプルーニングにおけるランダム勾配による重要度推定
- Authors: Suman Sapkota, Binod Bhattarai
- Abstract要約: 近似を用いて、TaylorFO(TaylorFO)に基づく方法と同様の重要度推定を導出する。
本稿では,これらの重要度推定法を改善するための2つの方法を提案する。
- 参考スコア(独自算出の注目度): 13.080844124094696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Global Neuron Importance Estimation is used to prune neural networks for
efficiency reasons. To determine the global importance of each neuron or
convolutional kernel, most of the existing methods either use activation or
gradient information or both, which demands abundant labelled examples. In this
work, we use heuristics to derive importance estimation similar to Taylor First
Order (TaylorFO) approximation based methods. We name our methods TaylorFO-abs
and TaylorFO-sq. We propose two additional methods to improve these importance
estimation methods. Firstly, we propagate random gradients from the last layer
of a network, thus avoiding the need for labelled examples. Secondly, we
normalize the gradient magnitude of the last layer output before propagating,
which allows all examples to contribute similarly to the importance score. Our
methods with additional techniques perform better than previous methods when
tested on ResNet and VGG architectures on CIFAR-100 and STL-10 datasets.
Furthermore, our method also complements the existing methods and improves
their performances when combined with them.
- Abstract(参考訳): グローバルニューロン重要度推定は、効率上の理由からニューラルネットワークをプルークするために用いられる。
各ニューロンや畳み込みカーネルのグローバルな重要性を決定するために、既存の手法のほとんどはアクティベーションまたは勾配情報または両方を使用し、豊富なラベル付きサンプルを必要とする。
本研究では,テイラー一階近似法(taylorfo approximation based method)と類似した重要度推定を,ヒューリスティックスを用いて導出する。
メソッドをTaylorFO-absとTaylorFO-sqと命名します。
本稿では,これらの重要度推定法を改善するための2つの方法を提案する。
まず、ネットワークの最後の層からランダムな勾配を伝搬し、ラベル付き例を必要としないようにする。
第二に,最終層出力の勾配等級を伝播前に正規化し,すべての例が重要度スコアに類似して寄与することを可能にする。
CIFAR-100 および STL-10 データセット上の ResNet および VGG アーキテクチャでテストした場合,提案手法は従来手法よりも優れている。
さらに,本手法は既存手法を補完し,それらの組み合わせによる性能向上を図る。
関連論文リスト
- Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Generalizing Backpropagation for Gradient-Based Interpretability [103.2998254573497]
モデルの勾配は、半環を用いたより一般的な定式化の特別な場合であることを示す。
この観測により、バックプロパゲーションアルゴリズムを一般化し、他の解釈可能な統計を効率的に計算することができる。
論文 参考訳(メタデータ) (2023-07-06T15:19:53Z) - A Bootstrap Algorithm for Fast Supervised Learning [0.0]
ニューラルネットワーク(NN)のトレーニングは通常、勾配降下(および勾配降下(SGD))、ADADELTA、ADAM、制限メモリアルゴリズムなど、ある種の曲線追従手法に依存する。
これらのアルゴリズムの収束は通常、高いレベルの精度を達成するために大量の観測にアクセスできることに依存しており、特定の種類の関数で、これらのアルゴリズムはキャッチするデータポイントの複数のエポックを取ることができる。
ここでは、収束速度が劇的に向上する可能性を秘めている別の手法を探求する: カーブフォローではなく、隠れた層を「疎結合」することなどに依存する。
論文 参考訳(メタデータ) (2023-05-04T18:28:18Z) - TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent
Kernels [141.29156234353133]
最先端の凸学習手法は、クライアントが異なるデータ分布を持つ場合、集中型よりもはるかにパフォーマンスが劣る。
我々は、この格差は、非NISTityが提示した課題に大きく起因していることを示す。
本稿では,Train-Convexify Neural Network (TCT) 手法を提案する。
論文 参考訳(メタデータ) (2022-07-13T16:58:22Z) - On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning [0.0]
深部記憶ネットワークのための準ニュートン学習アルゴリズムの動作について検討する。
準ニュートンは効率が良く、よく知られたAdamの1次実行よりも性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-05-18T20:53:58Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Population Gradients improve performance across data-sets and
architectures in object classification [6.17047113475566]
ニューラルネットワーク(NN)の学習中に勾配を計算する新しい手法を提案する。
アーキテクチャ、データセット、ハイパーパラメータ値、トレーニング長、モデルサイズにわたる最終的なパフォーマンスを大幅に改善する。
私たちがテストした広範囲な状況において有効であるのに加えて、パフォーマンスの向上(例えば、F1)は他の広範なパフォーマンス改善手法のどれよりも高いか高いかのどちらかです。
論文 参考訳(メタデータ) (2020-10-23T09:40:23Z) - Passive Batch Injection Training Technique: Boosting Network Performance
by Injecting Mini-Batches from a different Data Distribution [39.8046809855363]
この研究は、元の入力データとは異なる分布から追加のデータを利用するディープニューラルネットワークの新しいトレーニング手法を提案する。
私たちの知る限りでは、畳み込みニューラルネットワーク(CNN)のトレーニングを支援するために、異なるデータ分散を利用する最初の研究である。
論文 参考訳(メタデータ) (2020-06-08T08:17:32Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。