論文の概要: Dodging the Double Descent in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2302.13259v2
- Date: Wed, 1 Mar 2023 16:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 11:46:13.345821
- Title: Dodging the Double Descent in Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークにおけるダブルディフレージング
- Authors: Victor Qu\'etu and Enzo Tartaglione
- Abstract要約: 二重降下は、ディープラーニングコミュニティの注目を集めている。
これは、高一般化を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
本研究は, 学習問題の適切な条件付けにより, 二重降下現象は回避可能であることを示す。
- 参考スコア(独自算出の注目度): 3.1473798197405944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding the optimal size of deep learning models is very actual and of broad
impact, especially in energy-saving schemes. Very recently, an unexpected
phenomenon, the ``double descent'', has caught the attention of the deep
learning community. As the model's size grows, the performance gets first
worse, and then goes back to improving. It raises serious questions about the
optimal model's size to maintain high generalization: the model needs to be
sufficiently over-parametrized, but adding too many parameters wastes training
resources. Is it possible to find, in an efficient way, the best trade-off? Our
work shows that the double descent phenomenon is potentially avoidable with
proper conditioning of the learning problem, but a final answer is yet to be
found. We empirically observe that there is hope to dodge the double descent in
complex scenarios with proper regularization, as a simple $\ell_2$
regularization is already positively contributing to such a perspective.
- Abstract(参考訳): ディープラーニングモデルの最適サイズを見つけることは、特に省エネスキームにおいて、非常に現実的で幅広い影響を与える。
最近になって,予期せぬ現象である‘二重降下’が,ディープラーニングコミュニティの注目を集めている。
モデルのサイズが大きくなると、まずパフォーマンスが悪化し、その後は改善に戻ります。
これは、高一般化を維持するために最適なモデルのサイズに関する深刻な疑問を提起する: モデルは十分に過度にパラメータ化する必要があるが、パラメータが多すぎるとトレーニングリソースが浪費される。
効果的な方法で、最良のトレードオフを見つけることは可能か?
本研究は,学習問題の適切な条件付けによって二重降下現象を回避できる可能性を示唆するが,最終的な答えは見当たらない。
我々は、単純な$\ell_2$正則化が既にそのような観点に肯定的な貢献をしているので、適切な正則化を持つ複素シナリオにおいて二重降下が期待されていることを実証的に観察する。
関連論文リスト
- The Quest of Finding the Antidote to Sparse Double Descent [1.336445018915526]
モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。
このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
論文 参考訳(メタデータ) (2023-08-31T09:56:40Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - DSD$^2$: Can We Dodge Sparse Double Descent and Compress the Neural
Network Worry-Free? [7.793339267280654]
このような現象を回避し、一般化を改善する学習フレームワークを提案する。
第2に,この現象の持続性に関する洞察を提供するエントロピー尺度を導入する。
第3に、再初期化法、モデル幅と深さ、データセットノイズなどの要因を包括的に定量的に分析する。
論文 参考訳(メタデータ) (2023-03-02T12:54:12Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Sparse Double Descent: Where Network Pruning Aggravates Overfitting [8.425040193238777]
本稿では,ネットワークプルーニングによるモデル間隔の増加に伴い,テスト性能が悪化する予期せぬ二重降下現象を報告する。
本稿では,スパースモデルの学習距離$ell_2$の曲線がスパース二重降下曲線とよく相関することを示す。
論文 参考訳(メタデータ) (2022-06-17T11:02:15Z) - When and how epochwise double descent happens [7.512375012141203]
急激な二重降下効果は、一般化誤差が最初は減少し、その後上昇し、最終的にトレーニング時間の増加とともに再び低下する。
このことは、訓練に要する時間の長さが長く、検証性能に基づく早期停止が準最適一般化をもたらすという現実的な問題である。
本研究は, 急激な二重降下は騒音発生に要するが, 第2の臨界騒音レベル以上の早期停止は有効であることを示す。
論文 参考訳(メタデータ) (2021-08-26T19:19:17Z) - The Low-Rank Simplicity Bias in Deep Networks [46.79964271742486]
我々は、ディープネットワークが帰納的にバイアスを受けているという仮説を調査し、拡張する実験的な観察を行い、低い有効ランク埋め込みの解を見つける。
我々の主張は、実践的な学習パラダイム上の有限幅線形および非線形モデルに真であることを示すとともに、自然データ上では、これらがよく一般化される解であることを示す。
論文 参考訳(メタデータ) (2021-03-18T17:58:02Z) - Training Stronger Baselines for Learning to Optimize [119.35557905664832]
最も単純なL2Oモデルであっても、より優れたトレーニングが可能であることを示します。
我々は、分析学の振る舞いを参考にして、非政治模倣学習を利用してL2O学習を指導する。
改良されたトレーニング技術は、様々な最先端のL2Oモデルにプラグインされ、即座に性能が向上する。
論文 参考訳(メタデータ) (2020-10-18T20:05:48Z) - Do Wider Neural Networks Really Help Adversarial Robustness? [92.8311752980399]
モデルロバスト性は自然精度と摂動安定性のトレードオフと密接に関係していることを示す。
本稿では,ワイドモデル上でラムダ$を適応的に拡大するWidth Adjusted Regularization(WAR)手法を提案する。
論文 参考訳(メタデータ) (2020-10-03T04:46:17Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。