論文の概要: Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks
- arxiv url: http://arxiv.org/abs/2012.08749v1
- Date: Wed, 16 Dec 2020 05:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 03:09:36.746346
- Title: Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks
- Title(参考訳): モデル圧縮における過度パラメータ化の確率的メリット:ダブルディフレッシュからプルーニングニューラルネット
- Authors: Xiangyu Chang, Yingcong Li, Samet Oymak, Christos Thrampoulidis
- Abstract要約: 最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
- 参考スコア(独自算出の注目度): 38.153825455980645
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep networks are typically trained with many more parameters than the size
of the training dataset. Recent empirical evidence indicates that the practice
of overparameterization not only benefits training large models, but also
assists - perhaps counterintuitively - building lightweight models.
Specifically, it suggests that overparameterization benefits model pruning /
sparsification. This paper sheds light on these empirical findings by
theoretically characterizing the high-dimensional asymptotics of model pruning
in the overparameterized regime. The theory presented addresses the following
core question: "should one train a small model from the beginning, or first
train a large model and then prune?". We analytically identify regimes in
which, even if the location of the most informative features is known, we are
better off fitting a large model and then pruning rather than simply training
with the known informative features. This leads to a new double descent in the
training of sparse models: growing the original model, while preserving the
target sparsity, improves the test accuracy as one moves beyond the
overparameterization threshold. Our analysis further reveals the benefit of
retraining by relating it to feature correlations. We find that the above
phenomena are already present in linear and random-features models. Our
technical approach advances the toolset of high-dimensional analysis and
precisely characterizes the asymptotic distribution of over-parameterized
least-squares. The intuition gained by analytically studying simpler models is
numerically verified on neural networks.
- Abstract(参考訳): ディープネットワークは通常、トレーニングデータセットのサイズよりも多くのパラメータでトレーニングされる。
最近の実証的証拠は、過剰パラメータ化のプラクティスは、大きなモデルをトレーニングするだけでなく、軽量モデルを構築するのに役立つことを示しています。
具体的には、過剰パラメータ化はモデルプルーニング/スパース化の利点を示唆する。
本稿では, 過パラメータ化状態におけるモデルプルーニングの高次元漸近特性を理論的に特徴付けることにより, これらの経験的発見に光を当てる。
この理論は、「最初は小さなモデルを訓練するか、最初は大きなモデルを訓練し、次にプルーンを訓練するか」という質問に対処した。
もっとも情報性の高い特徴の位置が分かっていても、大きなモデルに適合して、既知の情報のある特徴で単にトレーニングするよりは、プルーニングする方がよいと、我々は分析的に判断する。
これはスパースモデルのトレーニングにおいて、新たな二重降下をもたらす: 元のモデルを成長させる一方で、ターゲットの間隔を保ちながら、オーバーパラメータ化しきい値を超えてテスト精度を向上させる。
分析により,特徴相関に関連付けることで,リトレーニングの利点がさらに明らかとなった。
上記の現象は、線形およびランダム特徴モデルにすでに存在することが分かる。
本手法は,高次元解析のツールセットを進化させ,超パラメータ最小二乗の漸近分布を正確に特徴付ける。
より単純なモデルを分析することによって得られる直感は、ニューラルネットワーク上で数値的に検証される。
関連論文リスト
- Scaling Law for Stochastic Gradient Descent in Quadratically Parameterized Linear Regression [5.801904710149222]
機械学習において、スケーリング法則は、モデルとデータサイズをスケールアップすることで、モデルパフォーマンスがどのように改善されるかを記述する。
本稿では,2次パラメータ化モデルを用いた線形回帰のスケーリング法則について検討する。
その結果、正準線形回帰では、特徴学習による一般化と不要な曲線と、パラメトリゼーション法とアルゴリズムに対する情報理論の下界との明確な分離が提供される。
論文 参考訳(メタデータ) (2025-02-13T09:29:04Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - On the Foundations of Shortcut Learning [20.53986437152018]
予測と可用性が形状モデルの特徴的利用とどのように相互作用するかを考察する。
線形モデルは比較的偏りがないが、ReLUやTanhの単位を持つ単一の隠蔽層を導入するとバイアスが生じる。
論文 参考訳(メタデータ) (2023-10-24T22:54:05Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of
Overparameterized Machine Learning [37.01683478234978]
機械学習(ML)の急速な進歩は、この分野の長年のドグマに挑戦する科学的な疑問を数多く提起している。
最も重要なライドルの1つは、パラメータ化されたモデルの優れた経験的一般化である。
論文 参考訳(メタデータ) (2021-09-06T10:48:40Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。