論文の概要: Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey
- arxiv url: http://arxiv.org/abs/2205.08099v2
- Date: Thu, 25 May 2023 05:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-27 00:14:32.967953
- Title: Dimensionality Reduced Training by Pruning and Freezing Parts of a Deep
Neural Network, a Survey
- Title(参考訳): 深部ニューラルネットワークの加工・凍結部による次元低減訓練
- Authors: Paul Wimmer, Jens Mehnert, Alexandru Paul Condurache
- Abstract要約: 最先端のディープラーニングモデルには、何十億にも達するパラメータカウントがある。そのようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
モデル圧縮は、ストレージと転送コストを低減し、フォワードおよび/または後方パスでの計算数を減少させることで、トレーニングをより効率的にすることができる。
この研究は、トレーニング全体を通してディープラーニングモデルでトレーニングされた重量を減らす方法に関する調査である。
- 参考スコア(独自算出の注目度): 69.3939291118954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deep learning models have a parameter count that reaches
into the billions. Training, storing and transferring such models is energy and
time consuming, thus costly. A big part of these costs is caused by training
the network. Model compression lowers storage and transfer costs, and can
further make training more efficient by decreasing the number of computations
in the forward and/or backward pass. Thus, compressing networks also at
training time while maintaining a high performance is an important research
topic. This work is a survey on methods which reduce the number of trained
weights in deep learning models throughout the training. Most of the introduced
methods set network parameters to zero which is called pruning. The presented
pruning approaches are categorized into pruning at initialization, lottery
tickets and dynamic sparse training. Moreover, we discuss methods that freeze
parts of a network at its random initialization. By freezing weights, the
number of trainable parameters is shrunken which reduces gradient computations
and the dimensionality of the model's optimization space. In this survey we
first propose dimensionality reduced training as an underlying mathematical
model that covers pruning and freezing during training. Afterwards, we present
and discuss different dimensionality reduced training methods.
- Abstract(参考訳): 最先端のディープラーニングモデルには、数十億に達するパラメータ数がある。
このようなモデルのトレーニング、保存、転送は、エネルギーと時間を要するため、コストがかかる。
これらのコストの大部分は、ネットワークのトレーニングによるものです。
モデル圧縮は、ストレージと転送コストを低減し、前方および後方パスでの計算回数を減少させることで、トレーニングをさらに効率化する。
したがって、高い性能を維持しながらトレーニング時にもネットワークを圧縮することが重要な研究課題である。
本研究は,ディープラーニングモデルにおけるトレーニング中のトレーニング重み数を削減する手法に関する調査である。
導入されたほとんどのメソッドはネットワークパラメータを0に設定し、プルーニングと呼ばれる。
提案プルーニング手法は,初期化時のプルーニング,宝くじ,ダイナミックスパーストレーニングに分類される。
さらに,ネットワークの一部がランダム初期化時に凍結する手法について検討する。
重みを凍結することで、トレーニング可能なパラメータの数を縮小し、勾配計算とモデルの最適化空間の次元を減少させる。
本研究は,まず,訓練中の刈り取りと凍結を対象とする数学的モデルとして,次元性低減トレーニングを提案する。
その後,異なる次元性低減訓練法を提示し,議論する。
関連論文リスト
- Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
SST(Sparse Spectral Training)は、全ての特異値を更新し、ネットワーク重みの特異ベクトルを選択的に更新する高度な訓練手法である。
SSTは、特異値の重み付けによる多項サンプリング法により決定される特異ベクトルに対する目標更新戦略を用いて、トレーニングプロセスを洗練する。
OPT-125Mでは、組込み寸法の8.3%に等しく、SSTはパープレキシティギャップを67.6%減らし、一般的なローランク法で性能損失を著しく低減した。
論文 参考訳(メタデータ) (2024-05-24T11:59:41Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Learning a Consensus Sub-Network with Polarization Regularization and
One Pass Training [3.2214522506924093]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10 と CIFAR-100 を用いた結果,分類精度が1% 未満の深層ネットワークにおける接続の50%を除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Accelerating Deep Learning with Dynamic Data Pruning [0.0]
ディープラーニングは、最先端のネットワークをトレーニングするために強力なコンピューティングシステムへのアクセスを必要とするため、違法にコストがかかるようになった。
forget scoresやGraNd/EL2N scoresといった以前の作業では、完全なデータセット内の重要なサンプルを特定し、残りのサンプルを刈り取ることで、エポック毎のイテレーションを減らすことができる。
本稿では,強化学習手法に基づく2つのアルゴリズムを提案し,ランダムな動的手法よりも高い精度でサンプルを動的にプーンする。
論文 参考訳(メタデータ) (2021-11-24T16:47:34Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination [11.173092834726528]
コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-17T01:23:26Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。