論文の概要: What to Prune and What Not to Prune at Initialization
- arxiv url: http://arxiv.org/abs/2209.02201v1
- Date: Tue, 6 Sep 2022 03:48:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:27:58.835546
- Title: What to Prune and What Not to Prune at Initialization
- Title(参考訳): 初期化におけるprune と prune とは何か
- Authors: Maham Haroon
- Abstract要約: トレーニング後のドロップアウトベースのアプローチは、高いスパシティを実現する。
ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。
目標は、パフォーマンスを維持しながら、より高い疎性を達成することです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training dropout based approaches achieve high sparsity and are well
established means of deciphering problems relating to computational cost and
overfitting in Neural Network architectures. Contrastingly, pruning at
initialization is still far behind. Initialization pruning is more efficacious
when it comes to scaling computation cost of the network. Furthermore, it
handles overfitting just as well as post training dropout.
In approbation of the above reasons, the paper presents two approaches to
prune at initialization. The goal is to achieve higher sparsity while
preserving performance. 1) K-starts, begins with k random p-sparse matrices at
initialization. In the first couple of epochs the network then determines the
"fittest" of these p-sparse matrices in an attempt to find the "lottery ticket"
p-sparse network. The approach is adopted from how evolutionary algorithms find
the best individual. Depending on the Neural Network architecture, fitness
criteria can be based on magnitude of network weights, magnitude of gradient
accumulation over an epoch or a combination of both. 2) Dissipating gradients
approach, aims at eliminating weights that remain within a fraction of their
initial value during the first couple of epochs. Removing weights in this
manner despite their magnitude best preserves performance of the network.
Contrarily, the approach also takes the most epochs to achieve higher sparsity.
3) Combination of dissipating gradients and kstarts outperforms either methods
and random dropout consistently.
The benefits of using the provided pertaining approaches are: 1) They do not
require specific knowledge of the classification task, fixing of dropout
threshold or regularization parameters 2) Retraining of the model is neither
necessary nor affects the performance of the p-sparse network.
- Abstract(参考訳): トレーニング後のドロップアウトベースのアプローチは高いスパーシティを達成し、ニューラルネットワークアーキテクチャの計算コストとオーバーフィットに関する問題を解読する確立された手段である。
対照的に、初期化はまだまだ遅れている。
ネットワークの計算コストのスケーリングに関しては,初期化プルーニングの方が有効だ。
さらに、トレーニングのドロップアウトだけでなく、オーバーフィッティングも処理する。
以上の理由をふまえて,本論文は初期化におけるプルーンの2つのアプローチを提案する。
目標は、パフォーマンスを維持しながら高いスパーシティを達成することです。
1) k-スタートは、初期化時に k 個のランダムな p-スパース行列で始まる。
最初の2つのエポックで、ネットワークはこれらのp疎行列の「適度なテスト」を決定し、p疎ネットワークの「ラタリーチケット」を見つける。
このアプローチは、進化的アルゴリズムが最適な個人を見つける方法から採用されている。
ニューラルネットワークのアーキテクチャによっては、適合度基準はネットワークの重みの大きさ、エポックに対する勾配の蓄積度、あるいはその両方の組み合わせに基づくことができる。
2) 放散勾配のアプローチは, 初期値のごく一部に留まる重量を除去することを目的としている。
この方法で重みを除去することは、ネットワークの性能を最善に維持する。
反対に、このアプローチは高いスパース性を達成するために最もエポックを必要とする。
3) 散逸勾配とkstartの組み合わせは, 方法とランダムなドロップアウトを両立させる。
提案されたアプローチを使用する利点は次のとおりである。
1)分類タスクの特定の知識や、ドロップアウトしきい値や正規化パラメータの固定は不要である。
2) モデルの再学習は, p-sparse ネットワークの性能にも影響を与えない。
関連論文リスト
- Learning effective pruning at initialization from iterative pruning [15.842658282636876]
本稿では、トレーニングコストを削減するために、エンドツーエンドのニューラルネットワークに基づくPaI手法を提案する。
提案手法は, 既存手法よりも高スパース性設定で優れる。
ニューラルネットワークを用いた最初のPaI手法として、このアプローチに影響を与える要因を検証するために広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-27T03:17:52Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z) - Pruning neural networks without any data by iteratively conserving
synaptic flow [27.849332212178847]
ディープニューラルネットワークのパラメータを抽出することは、時間、記憶、エネルギーの潜在的な節約によって、大きな関心を集めている。
近年の研究では、高価なトレーニングとプルーニングサイクルを通じて、当選した宝くじやスパーストレーナーブルワークスの存在が特定されている。
我々は、理論駆動型アルゴリズム設計を通じて、この問題に対する肯定的な回答を提供する。
論文 参考訳(メタデータ) (2020-06-09T19:21:57Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。