論文の概要: Sparse Double Descent: Where Network Pruning Aggravates Overfitting
- arxiv url: http://arxiv.org/abs/2206.08684v1
- Date: Fri, 17 Jun 2022 11:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:52:23.878444
- Title: Sparse Double Descent: Where Network Pruning Aggravates Overfitting
- Title(参考訳): Sparse Double Descent: ネットワークの運営が過度に適合する場所
- Authors: Zheng He, Zeke Xie, Quanzhi Zhu, Zengchang Qin
- Abstract要約: 本稿では,ネットワークプルーニングによるモデル間隔の増加に伴い,テスト性能が悪化する予期せぬ二重降下現象を報告する。
本稿では,スパースモデルの学習距離$ell_2$の曲線がスパース二重降下曲線とよく相関することを示す。
- 参考スコア(独自算出の注目度): 8.425040193238777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People usually believe that network pruning not only reduces the
computational cost of deep networks, but also prevents overfitting by
decreasing model capacity. However, our work surprisingly discovers that
network pruning sometimes even aggravates overfitting. We report an unexpected
sparse double descent phenomenon that, as we increase model sparsity via
network pruning, test performance first gets worse (due to overfitting), then
gets better (due to relieved overfitting), and gets worse at last (due to
forgetting useful information). While recent studies focused on the deep double
descent with respect to model overparameterization, they failed to recognize
that sparsity may also cause double descent. In this paper, we have three main
contributions. First, we report the novel sparse double descent phenomenon
through extensive experiments. Second, for this phenomenon, we propose a novel
learning distance interpretation that the curve of $\ell_{2}$ learning distance
of sparse models (from initialized parameters to final parameters) may
correlate with the sparse double descent curve well and reflect generalization
better than minima flatness. Third, in the context of sparse double descent, a
winning ticket in the lottery ticket hypothesis surprisingly may not always
win.
- Abstract(参考訳): ネットワークプルーニングはディープネットワークの計算コストを減少させるだけでなく、モデルの容量を減少させることによる過剰フィッティングを防いでいる、と人々は一般的に信じている。
しかし、私たちの研究は驚くべきことに、ネットワークの刈り取りは時々過度に膨らむことさえあります。
本報告では,ネットワークプルーニングによりモデルの疎度を増大させると,まずテスト性能が悪化し(オーバーフィッティングにより),その後改善され(オーバーフィッティングが緩和される),最後に悪化する(有用な情報を忘れる)という予期せぬ二重降下現象を報告する。
最近の研究では、モデルの過度パラメータ化に関して、深度二重降下に焦点を当てているが、スパーシティが二重降下を引き起こすことも認識できなかった。
本稿では,主な貢献を3つ挙げる。
まず,新しいスパース二重降下現象を広範な実験により報告する。
次に, この現象に対して, スパースモデルの$\ell_{2}$ 学習距離曲線(初期化パラメータから最終パラメータまで)がスパース二重降下曲線と相関し, 最小平坦性よりも一般化を反映する新しい学習距離解釈を提案する。
第3に、スパースダブル降下の文脈では、抽選券仮説の当選券は、必ずしも勝つとは限らない。
関連論文リスト
- Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Double Descent Demystified: Identifying, Interpreting & Ablating the
Sources of a Deep Learning Puzzle [12.00962791565144]
二重降下は機械学習の驚くべき現象である。
データ数に対してモデルパラメータの数が増加するにつれて、テストエラーは減少する。
論文 参考訳(メタデータ) (2023-03-24T17:03:40Z) - DSD$^2$: Can We Dodge Sparse Double Descent and Compress the Neural
Network Worry-Free? [7.793339267280654]
このような現象を回避し、一般化を改善する学習フレームワークを提案する。
第2に,この現象の持続性に関する洞察を提供するエントロピー尺度を導入する。
第3に、再初期化法、モデル幅と深さ、データセットノイズなどの要因を包括的に定量的に分析する。
論文 参考訳(メタデータ) (2023-03-02T12:54:12Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。