論文の概要: Understanding the Role of Optimization in Double Descent
- arxiv url: http://arxiv.org/abs/2312.03951v1
- Date: Wed, 6 Dec 2023 23:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:42:19.744490
- Title: Understanding the Role of Optimization in Double Descent
- Title(参考訳): 二重老化における最適化の役割の理解
- Authors: Chris Yuhao Liu, Jeffrey Flanigan
- Abstract要約: 本稿では、なぜ二重降下が弱いか、全く起こらないのかを簡単な最適化ベースで説明する。
我々の知る限りでは、モデルワイドの二重降下に寄与する多くの異なる要因が最適化の観点から統一されていることを最初に示す。
現実の機械学習のセットアップでは、二重降下が問題になる可能性は低い。
- 参考スコア(独自算出の注目度): 8.010193718024347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The phenomenon of model-wise double descent, where the test error peaks and
then reduces as the model size increases, is an interesting topic that has
attracted the attention of researchers due to the striking observed gap between
theory and practice \citep{Belkin2018ReconcilingMM}. Additionally, while double
descent has been observed in various tasks and architectures, the peak of
double descent can sometimes be noticeably absent or diminished, even without
explicit regularization, such as weight decay and early stopping. In this
paper, we investigate this intriguing phenomenon from the optimization
perspective and propose a simple optimization-based explanation for why double
descent sometimes occurs weakly or not at all. To the best of our knowledge, we
are the first to demonstrate that many disparate factors contributing to
model-wise double descent (initialization, normalization, batch size, learning
rate, optimization algorithm) are unified from the viewpoint of optimization:
model-wise double descent is observed if and only if the optimizer can find a
sufficiently low-loss minimum. These factors directly affect the condition
number of the optimization problem or the optimizer and thus affect the final
minimum found by the optimizer, reducing or increasing the height of the double
descent peak. We conduct a series of controlled experiments on random feature
models and two-layer neural networks under various optimization settings,
demonstrating this optimization-based unified view. Our results suggest the
following implication: Double descent is unlikely to be a problem for
real-world machine learning setups. Additionally, our results help explain the
gap between weak double descent peaks in practice and strong peaks observable
in carefully designed setups.
- Abstract(参考訳): 実験誤差がピークに達し、モデルサイズが大きくなるにつれて減少するモデルワイド・ダブル降下現象は、理論と実践の差が顕著に観測されていることから、研究者の注目を集める興味深いトピックである。
加えて、様々なタスクやアーキテクチャで二重降下が観察されている一方で、重みの減衰や早期停止といった明示的な正規化がなくても、二重降下のピークが顕著に欠如または減少することがある。
本稿では,この興味深い現象を最適化の観点から検討し,なぜ二重降下が弱くなるか全く起こるかという簡単な最適化に基づく説明を提案する。
我々の知識を最大限に活用するため、我々はモデルワイズ二重降下(初期化、正規化、バッチサイズ、学習率、最適化アルゴリズム)に寄与する多くの異なる要因が最適化の観点から統一されることを最初に証明した。
これらの因子は最適化問題やオプティマイザの条件数に直接影響し、オプティマイザが検出した最終最小値に影響を与え、二重降下ピークの高さを減少または増大させる。
ランダムな特徴モデルと2層ニューラルネットワークを様々な最適化条件下で制御した実験を行い、この最適化に基づく統一ビューを実証する。
ダブル降下は、現実世界の機械学習のセットアップでは問題になりそうにない。
さらに,本研究の結果は,弱い2重降下ピークと,慎重に設計した設定で観測可能な強いピークとのギャップを説明するのに役立つ。
関連論文リスト
- The Epochal Sawtooth Effect: Unveiling Training Loss Oscillations in Adam and Other Optimizers [8.770864706004472]
テキストEpochal Sawtooth Effect (ESE) と呼ばれる繰り返し学習損失パターンを特定し解析する。
このパターンは、各エポックの始めに急激な損失が減少し、その後徐々に増加し、ソートゥース状の損失曲線が生じる。
Epochal Sawtooth 効果に繋がるメカニズムの詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-10-14T00:51:21Z) - Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Double Descent Optimization Pattern and Aliasing: Caveats of Noisy
Labels [1.4424394176890545]
この研究は、小さなデータセットとノイズラベルで二重降下が発生することを確認した。
学習率の増大は、二重降下パターンを抑えることなく隠蔽するアナライザー効果を生じさせることを示した。
本研究は,脳波連続記録によるてんかん患者の事象の予測を現実の応用に翻訳したことを示す。
論文 参考訳(メタデータ) (2021-06-03T19:41:40Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。