論文の概要: Pruning's Effect on Generalization Through the Lens of Training and
Regularization
- arxiv url: http://arxiv.org/abs/2210.13738v1
- Date: Tue, 25 Oct 2022 03:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:46:09.807202
- Title: Pruning's Effect on Generalization Through the Lens of Training and
Regularization
- Title(参考訳): 訓練と正規化のレンズによる一般化に対するプルーニングの効果
- Authors: Tian Jin, Michael Carbin, Daniel M. Roy, Jonathan Frankle and Gintare
Karolina Dziugaite
- Abstract要約: プルーニングによって特定の空間でのトレーニングが向上し,より密集したモデルによるトレーニング損失が向上することを示す。
また, プルーニングにより他の空間での正規化が促進され, 密度モデル上のノイズのある例による精度が低下することが判明した。
- 参考スコア(独自算出の注目度): 45.571895723272256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Practitioners frequently observe that pruning improves model generalization.
A long-standing hypothesis based on bias-variance trade-off attributes this
generalization improvement to model size reduction. However, recent studies on
over-parameterization characterize a new model size regime, in which larger
models achieve better generalization. Pruning models in this over-parameterized
regime leads to a contradiction -- while theory predicts that reducing model
size harms generalization, pruning to a range of sparsities nonetheless
improves it. Motivated by this contradiction, we re-examine pruning's effect on
generalization empirically.
We show that size reduction cannot fully account for the
generalization-improving effect of standard pruning algorithms. Instead, we
find that pruning leads to better training at specific sparsities, improving
the training loss over the dense model. We find that pruning also leads to
additional regularization at other sparsities, reducing the accuracy
degradation due to noisy examples over the dense model. Pruning extends model
training time and reduces model size. These two factors improve training and
add regularization respectively. We empirically demonstrate that both factors
are essential to fully explaining pruning's impact on generalization.
- Abstract(参考訳): プラニングはモデルの一般化を改善することをしばしば観察する。
バイアス分散トレードオフに基づく長年の仮説は、この一般化の改善をモデルサイズ削減に寄与している。
しかし、近年の過度パラメータ化の研究は、より大きなモデルがより良い一般化を実現する新しいモデルサイズ体制を特徴づけている。
モデルのサイズを減らすことは一般化を損なうと理論は予測するが、しかしながら、様々な範囲のプルーニングはそれを改善する。
この矛盾に触発された我々は、一般化に対するプルーニングの影響を経験的に再検討する。
サイズ削減は,標準的なプルーニングアルゴリズムの一般化改善効果を十分に説明できないことを示す。
その代わり、プルーニングは特定の空間でのトレーニングを良くし、密集したモデルよりもトレーニングの損失を改善する。
また, プルーニングにより他の空間での正規化が促進され, 密度モデル上のノイズのある例による精度劣化が低減されることがわかった。
プルーニングはモデルトレーニング時間を拡張し、モデルサイズを削減する。
これら2つの要素はそれぞれトレーニングを改善し、レギュライゼーションを追加する。
いずれの因子もpruningの一般化への影響を十分に説明するために不可欠であることを示す。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Relating Regularization and Generalization through the Intrinsic
Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。
また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文 参考訳(メタデータ) (2022-11-23T19:00:00Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Evaluating the Impact of Model Scale for Compositional Generalization in
Semantic Parsing [38.770055054268965]
最近の研究により、モデルスケーリングによる多くのNLPタスクが大幅に改善されている。
ファインチューニングは通常、分布外合成の一般化に対して平坦または負のスケーリング曲線を持つ。
文脈内学習は、正のスケーリング曲線を持つが、一般的には、より小さな微調整モデルよりも優れている。
論文 参考訳(メタデータ) (2022-05-24T17:57:39Z) - Robustness to Augmentations as a Generalization metric [0.0]
一般化とは、目に見えないドメインを予測するモデルの能力です。
拡張に頑健なモデルは、そうでないモデルよりも一般化可能であるという概念を用いて、モデルの一般化性能を予測する手法を提案する。
提案手法は、ディープラーニングにおける一般化予測に関するNeurIPSコンペティションの最初のランナーアップソリューションであった。
論文 参考訳(メタデータ) (2021-01-16T15:36:38Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - A Gradient Flow Framework For Analyzing Network Pruning [11.247894240593693]
最近のネットワークプルーニング手法は、トレーニングの初期段階におけるプルーニングモデルに焦点を当てている。
モデルパラメータのノルムを通した重要度を統一するために勾配流を用いた一般的なフレームワークを開発する。
我々は,CIFAR-10/CIFAR-100でトレーニングしたVGG-13,MobileNet-V1,ResNet-56のいくつかのモデルについて検証を行った。
論文 参考訳(メタデータ) (2020-09-24T17:37:32Z) - Movement Pruning: Adaptive Sparsity by Fine-Tuning [115.91907953454034]
マグニチュードプルーニング(Magnitude pruning)は、純粋教師付き学習におけるモデルサイズの削減に広く用いられている戦略である。
本稿では,単純な一階重み決定法であるムーブメント・プルーニング(Motion pruning)を提案する。
実験により、大きな事前訓練された言語モデルでプルーニングを行うと、運動プルーニングは高分離性体制において顕著な改善を示すことが示された。
論文 参考訳(メタデータ) (2020-05-15T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。