論文の概要: FGGP: Fixed-Rate Gradient-First Gradual Pruning
- arxiv url: http://arxiv.org/abs/2411.05500v1
- Date: Fri, 08 Nov 2024 12:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:21.305668
- Title: FGGP: Fixed-Rate Gradient-First Gradual Pruning
- Title(参考訳): FGGP:固定レートのグラジエントファーストグラジアルプルーニング
- Authors: Lingkai Zhu, Can Deniz Bezek, Orcun Goksel,
- Abstract要約: パラメータ選択のための勾配第一等級戦略を導入し、これらのステップ間の固定レート選択基準がより有効であることを示す。
提案手法は, 上述の実験条件のほとんどにおいて, 最先端の代替品よりも高い性能を示す。
- 参考スコア(独自算出の注目度): 2.0940682212182975
- License:
- Abstract: In recent years, the increasing size of deep learning models and their growing demand for computational resources have drawn significant attention to the practice of pruning neural networks, while aiming to preserve their accuracy. In unstructured gradual pruning, which sparsifies a network by gradually removing individual network parameters until a targeted network sparsity is reached, recent works show that both gradient and weight magnitudes should be considered. In this work, we show that such mechanism, e.g., the order of prioritization and selection criteria, is essential. We introduce a gradient-first magnitude-next strategy for choosing the parameters to prune, and show that a fixed-rate subselection criterion between these steps works better, in contrast to the annealing approach in the literature. We validate this on CIFAR-10 dataset, with multiple randomized initializations on both VGG-19 and ResNet-50 network backbones, for pruning targets of 90, 95, and 98% sparsity and for both initially dense and 50% sparse networks. Our proposed fixed-rate gradient-first gradual pruning (FGGP) approach outperforms its state-of-the-art alternatives in most of the above experimental settings, even occasionally surpassing the upperbound of corresponding dense network results, and having the highest ranking across the considered experimental settings.
- Abstract(参考訳): 近年,ディープラーニングモデルのサイズが増加し,計算資源の需要が増大する中で,ニューラルネットワークのプルーニングの実践に注目が集まっている。
ネットワークパラメータを段階的に除去し,対象ネットワークの空隙に達するまでネットワークを分散させる非構造的段階的プルーニングにおいて,近年の研究では勾配と重みを考慮すべきであることが示されている。
本研究では、優先順位付けの順序や選択基準などのメカニズムが不可欠であることを示す。
そこで本稿では,パラメータ選択のための勾配第一等級戦略を導入し,これらのステップ間の固定レート選択基準が,文献のアニーリングアプローチと対照的に有効であることを示す。
我々は、VGG-19とResNet-50ネットワークバックボーンの両方で複数のランダム化初期化を行い、90、95、98%の間隔で、初期密度と50%のスパースネットワークに対して、CIFAR-10データセット上でこれを検証した。
提案手法は, 実験条件の大部分において, 従来手法よりも高い性能を示し, 時折高密度ネットワークを上向きに上向きに上回り, 検討された実験条件において最高位にランク付けする。
関連論文リスト
- Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - What to Prune and What Not to Prune at Initialization [0.0]
トレーニング後のドロップアウトベースのアプローチは、高いスパシティを実現する。
ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。
目標は、パフォーマンスを維持しながら、より高い疎性を達成することです。
論文 参考訳(メタデータ) (2022-09-06T03:48:10Z) - WeightMom: Learning Sparse Networks using Iterative Momentum-based
pruning [0.0]
本稿では,前回の繰り返しの運動量に基づいて徐々に重みを刈り取る,重みに基づくプルーニング手法を提案する。
我々は,CIFAR-10やCIFAR-100といった画像分類データセットを用いて,AlexNet,VGG16,ResNet50などのネットワークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-08-11T07:13:59Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Keep the Gradients Flowing: Using Gradient Flow to Study Sparse Network
Optimization [16.85167651136133]
スパースネットワークのトレーニングについて、より広い視点で考察し、スパースモデルにおける正規化、最適化、アーキテクチャ選択の役割について考察する。
アーキテクチャ設計とトレーニング体制の側面を再考することにより,スパースネットワーク内の勾配流を改善することができることを示す。
論文 参考訳(メタデータ) (2021-02-02T18:40:26Z) - Progressive Skeletonization: Trimming more fat from a network at
initialization [76.11947969140608]
本稿では,接続感度が最大となるスケルトン化ネットワークを提案する。
次に、目的を最大化する2つの近似手順を提案する。
提案手法は, 高い刈り込みレベルにおいて, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-16T11:32:47Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。