論文の概要: No Free Prune: Information-Theoretic Barriers to Pruning at Initialization
- arxiv url: http://arxiv.org/abs/2402.01089v2
- Date: Wed, 24 Jul 2024 18:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:36:52.800607
- Title: No Free Prune: Information-Theoretic Barriers to Pruning at Initialization
- Title(参考訳): 自由なプルーネ:初期化時のプルーニングに対する情報理論障壁
- Authors: Tanishq Kumar, Kevin Luo, Mark Sellke,
- Abstract要約: arXiv:2105.12806のロバスト性法則を,通常のパラメータカウントを$p_texteff$に置き換えたスパースネットワークに拡張する。
ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。
- 参考スコア(独自算出の注目度): 8.125999058340998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existence of "lottery tickets" arXiv:1803.03635 at or near initialization raises the tantalizing question of whether large models are necessary in deep learning, or whether sparse networks can be quickly identified and trained without ever training the dense models that contain them. However, efforts to find these sparse subnetworks without training the dense model ("pruning at initialization") have been broadly unsuccessful arXiv:2009.08576. We put forward a theoretical explanation for this, based on the model's effective parameter count, $p_\text{eff}$, given by the sum of the number of non-zero weights in the final network and the mutual information between the sparsity mask and the data. We show the Law of Robustness of arXiv:2105.12806 extends to sparse networks with the usual parameter count replaced by $p_\text{eff}$, meaning a sparse neural network which robustly interpolates noisy data requires a heavily data-dependent mask. We posit that pruning during and after training outputs masks with higher mutual information than those produced by pruning at initialization. Thus two networks may have the same sparsities, but differ in effective parameter count based on how they were trained. This suggests that pruning near initialization may be infeasible and explains why lottery tickets exist, but cannot be found fast (i.e. without training the full network). Experiments on neural networks confirm that information gained during training may indeed affect model capacity.
- Abstract(参考訳): ローンチケット」arXiv:1803.03635の存在は、ディープラーニングに大規模なモデルが必要なのか、あるいは、それらを含む密密なモデルを訓練することなく、スパースネットワークを素早く識別し、訓練することができるのかという具体的な疑問を提起する。
しかし、これらの粗いサブネットを訓練せずに見つける試み(初期化時に打ち切る)は、arXiv:2009.08576で広く失敗している。
そこで我々は, モデルの有効性パラメータカウントである$p_\text{eff}$に基づいて, 最終ネットワークにおける非ゼロ重み数と空間マスクとデータ間の相互情報との和から, 理論的に説明を行った。
我々は、arXiv:2105.12806のロバスト性法則を、通常のパラメータカウントを$p_\text{eff}$に置き換えたスパースネットワークに拡張する。
トレーニング前後のプルーニングは初期化時にプルーニングしたマスクよりも高い相互情報を有するマスクを出力する。
したがって、2つのネットワークは同じ間隔を持つかもしれないが、トレーニング方法によって有効パラメータ数が異なる。
これは、初期化に近いプルーニングは実現不可能であり、なぜ宝くじがあるのかを説明するが、高速に見つけることができない(すなわち、完全なネットワークを訓練せずに)。
ニューラルネットワークの実験では、トレーニング中に得られた情報がモデル能力に影響を与える可能性があることが確認されている。
関連論文リスト
- Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning [14.792099973449794]
本稿では,スパースネットワークのトレーニングダイナミクスと高密度ネットワークのトレーニングダイナミクスを一致させるアルゴリズムを提案する。
NTKスペクトルにおける通常無視されるデータ依存成分がどのように考慮されるかを示す。
パスeXclusion(PX)は、高頻度でも宝くじを見つけることができる。
論文 参考訳(メタデータ) (2024-06-03T22:19:42Z) - LOFT: Finding Lottery Tickets through Filter-wise Training [15.06694204377327]
本稿では,このようなチケットの出現を効果的に識別し,この観測結果を用いて,効率的な事前学習アルゴリズムの設計を行う方法を示す。
We present the emphLOttery ticket through filter-wise Training algorithm, called textscLoFT。
textscLoFT $i)$は保存され、良い宝くじを見つける。
論文 参考訳(メタデータ) (2022-10-28T14:43:42Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - The Unreasonable Effectiveness of Random Pruning: Return of the Most
Naive Baseline for Sparse Training [111.15069968583042]
ランダムプルーニングは、ニューラルネットワークのスパーシティを実現する最も単純な方法であることは間違いないが、トレーニング後のプルーニングやスパーストレーニングでは非競争的であると見なされている。
我々は、スクラッチからランダムに切断されたネットワークをスクラッチからスクラッチ的に訓練することで、その密度の高い等価性の性能に一致することを実証的に実証した。
以上の結果から,大規模なスパーストレーニングを行う余地はより大きいことが示唆され,スポーシティのメリットは慎重に設計されたプルーニングを超えて普遍的である可能性が示唆された。
論文 参考訳(メタデータ) (2022-02-05T21:19:41Z) - On the Compression of Natural Language Models [0.0]
我々は、量子化、知識蒸留、プルーニングといった最先端の圧縮技術についてレビューする。
本研究の目的は、自然言語モデル(NLM)にそのような訓練可能なサブネットワークが存在するかどうかを評価することである。
論文 参考訳(メタデータ) (2021-12-13T08:14:21Z) - FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training
with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。
本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文 参考訳(メタデータ) (2021-06-28T10:48:20Z) - Good Students Play Big Lottery Better [84.6111281091602]
宝くじの仮説は、高密度ニューラルネットワークは、元の高密度ネットのテスト精度に一致できる疎サブネットワークを含むことを示唆している。
近年の研究では、巻き戻し技術を用いてスパースサブネットワークが得られることが示されている。
本論文では,KDチケット (Knowledge Distillation Ticket) と呼ばれるサブネットワークを再訓練する手法を提案する。
論文 参考訳(メタデータ) (2021-01-08T23:33:53Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z) - Pruning neural networks without any data by iteratively conserving
synaptic flow [27.849332212178847]
ディープニューラルネットワークのパラメータを抽出することは、時間、記憶、エネルギーの潜在的な節約によって、大きな関心を集めている。
近年の研究では、高価なトレーニングとプルーニングサイクルを通じて、当選した宝くじやスパーストレーナーブルワークスの存在が特定されている。
我々は、理論駆動型アルゴリズム設計を通じて、この問題に対する肯定的な回答を提供する。
論文 参考訳(メタデータ) (2020-06-09T19:21:57Z) - Towards Deep Learning Models Resistant to Large Perturbations [0.0]
敵対的堅牢性は、機械学習アルゴリズムの必須特性であることが証明されている。
とよばれるアルゴリズムは、大きくても合理的で摂動のマグニチュードが与えられたディープニューラルネットワークのトレーニングに失敗することを示した。
論文 参考訳(メタデータ) (2020-03-30T12:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。