論文の概要: A Gradient Flow Framework For Analyzing Network Pruning
- arxiv url: http://arxiv.org/abs/2009.11839v4
- Date: Thu, 23 Sep 2021 07:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:05:49.204870
- Title: A Gradient Flow Framework For Analyzing Network Pruning
- Title(参考訳): ネットワークプルーニング解析のための勾配流れフレームワーク
- Authors: Ekdeep Singh Lubana and Robert P. Dick
- Abstract要約: 最近のネットワークプルーニング手法は、トレーニングの初期段階におけるプルーニングモデルに焦点を当てている。
モデルパラメータのノルムを通した重要度を統一するために勾配流を用いた一般的なフレームワークを開発する。
我々は,CIFAR-10/CIFAR-100でトレーニングしたVGG-13,MobileNet-V1,ResNet-56のいくつかのモデルについて検証を行った。
- 参考スコア(独自算出の注目度): 11.247894240593693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent network pruning methods focus on pruning models early-on in training.
To estimate the impact of removing a parameter, these methods use importance
measures that were originally designed to prune trained models. Despite lacking
justification for their use early-on in training, such measures result in
surprisingly low accuracy loss. To better explain this behavior, we develop a
general framework that uses gradient flow to unify state-of-the-art importance
measures through the norm of model parameters. We use this framework to
determine the relationship between pruning measures and evolution of model
parameters, establishing several results related to pruning models early-on in
training: (i) magnitude-based pruning removes parameters that contribute least
to reduction in loss, resulting in models that converge faster than
magnitude-agnostic methods; (ii) loss-preservation based pruning preserves
first-order model evolution dynamics and is therefore appropriate for pruning
minimally trained models; and (iii) gradient-norm based pruning affects
second-order model evolution dynamics, such that increasing gradient norm via
pruning can produce poorly performing models. We validate our claims on several
VGG-13, MobileNet-V1, and ResNet-56 models trained on CIFAR-10/CIFAR-100. Code
available at https://github.com/EkdeepSLubana/flowandprune.
- Abstract(参考訳): 最近のネットワークプルーニング手法は、トレーニングの初期段階におけるプルーニングモデルに焦点を当てている。
パラメータを除去する影響を推定するために、これらの手法はもともと訓練されたモデルを訓練するために設計された重要度尺度を使用する。
訓練において早期使用の正当性に欠けるにもかかわらず、これらの措置は驚くほど低い精度の損失をもたらす。
この振る舞いをよりよく説明するため,我々は,モデルパラメータの規範を通じて最先端の重要度尺度を統一するために勾配フローを用いる汎用フレームワークを開発した。
我々は,この枠組みを用いてモデルパラメータの進化と刈り取り指標の関係を判定し,刈り込みモデルの早期導入に関するいくつかの結果を確立した。
(i)マグニチュードベースのプルーニングは、損失の最小化に寄与するパラメータを取り除き、その結果、マグニチュード非依存の方法よりも速く収束するモデルとなる。
(II)損失保存に基づくプルーニングは、一階モデル進化ダイナミクスを保存し、従って最小限に訓練されたモデルをプルーニングするのに適している。
(3)勾配ノルムに基づくプルーニングは、2階モデルの進化力学に影響を与え、プルーニングによる勾配ノルムの増大は性能の悪いモデルを生み出す。
我々は,CIFAR-10/CIFAR-100でトレーニングしたVGG-13,MobileNet-V1,ResNet-56のいくつかのモデルについて検証を行った。
コードはhttps://github.com/ekdeepslubana/flowandpruneで入手できる。
関連論文リスト
- Federated Topic Model and Model Pruning Based on Variational Autoencoder [14.737942599204064]
フェデレートされたトピックモデリングにより、複数のパーティがデータのプライバシを保護しながらモデルを共同でトレーニングできる。
本稿では,各ノードのプライバシを確保しつつ,フェデレートされたトピックモデルを確立する手法を提案し,ニューラルネットワークモデルプルーニングを用いてモデルを高速化する。
実験結果から,フェデレートされたトピックモデルプルーニングは,モデルの性能を確保しつつ,モデルのトレーニング速度を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-11-01T06:00:14Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Structured Model Pruning of Convolutional Networks on Tensor Processing
Units [0.0]
構造化モデルプルーニングは、これらの要求を緩和するための有望なアプローチである。
種々の構造化モデルプルーニング手法とデータセットの精度・効率トレードオフを計測する。
構造化モデルプルーニングは,TPUのモデルメモリ使用量や速度を,精度を損なうことなく大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-09T03:41:31Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。