論文の概要: On the Role of Optimization in Double Descent: A Least Squares Study
- arxiv url: http://arxiv.org/abs/2107.12685v1
- Date: Tue, 27 Jul 2021 09:13:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 14:49:52.491052
- Title: On the Role of Optimization in Double Descent: A Least Squares Study
- Title(参考訳): 二重降下における最適化の役割について--最小二乗法による研究
- Authors: Ilja Kuzborskij, Csaba Szepesv\'ari, Omar Rivasplata, Amal
Rannen-Triki, Razvan Pascanu
- Abstract要約: 最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
- 参考スコア(独自算出の注目度): 30.44215064390409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirically it has been observed that the performance of deep neural networks
steadily improves as we increase model size, contradicting the classical view
on overfitting and generalization. Recently, the double descent phenomena has
been proposed to reconcile this observation with theory, suggesting that the
test error has a second descent when the model becomes sufficiently
overparameterized, as the model size itself acts as an implicit regularizer. In
this paper we add to the growing body of work in this space, providing a
careful study of learning dynamics as a function of model size for the least
squares scenario. We show an excess risk bound for the gradient descent
solution of the least squares objective. The bound depends on the smallest
non-zero eigenvalue of the covariance matrix of the input features, via a
functional form that has the double descent behavior. This gives a new
perspective on the double descent curves reported in the literature. Our
analysis of the excess risk allows to decouple the effect of optimization and
generalization error. In particular, we find that in case of noiseless
regression, double descent is explained solely by optimization-related
quantities, which was missed in studies focusing on the Moore-Penrose
pseudoinverse solution. We believe that our derivation provides an alternative
view compared to existing work, shedding some light on a possible cause of this
phenomena, at least in the considered least squares setting. We empirically
explore if our predictions hold for neural networks, in particular whether the
covariance of intermediary hidden activations has a similar behavior as the one
predicted by our derivations.
- Abstract(参考訳): 深層ニューラルネットワークの性能はモデルサイズの増加とともに着実に向上し、オーバーフィッティングと一般化に関する古典的見解とは矛盾することが実証されている。
近年, モデルサイズ自体が暗黙の正則化器として機能するため, モデルが十分に過度にパラメータ化されると, テスト誤差が第2降下を有することが示唆されている。
本稿では,この分野における作業の増大に加味し,最小二乗シナリオのモデルサイズ関数としての学習ダイナミクスを注意深く研究する。
我々は,最小二乗目的の勾配降下解に拘束される過大なリスクを示す。
境界は入力特徴の共分散行列の最小の非ゼロ固有値に依存し、二重降下挙動を持つ関数形式である。
これは文献で報告された二重降下曲線の新しい視点を与える。
過剰なリスクの分析は、最適化と一般化エラーの効果を分離することができる。
特に、ノイズのない回帰の場合、二重降下は最適化に関連した量によってのみ説明され、ムーア-ペンローズ擬逆解に焦点をあてた研究で見落とされた。
我々は、我々の導出は、既存の仕事よりも別の視点を提供し、少なくとも考慮すべき最小二乗設定において、この現象の起こりうる原因について、いくつかの光を当てていると信じている。
特に、中間的隠れアクティベーションの共分散が、私たちの導出によって予測されるものと同じような挙動を持つかどうかを実証的に調べる。
関連論文リスト
- Understanding the Double Descent Phenomenon in Deep Learning [49.1574468325115]
このチュートリアルは、古典的な統計学習の枠組みを設定し、二重降下現象を導入する。
いくつかの例を見て、セクション2では、二重降下において重要な役割を果たすと思われる帰納的バイアスを導入している。
第3節は2つの線形モデルで二重降下を探索し、最近の関連する研究から他の視点を提供する。
論文 参考訳(メタデータ) (2024-03-15T16:51:24Z) - The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - Understanding the Role of Optimization in Double Descent [8.010193718024347]
本稿では、なぜ二重降下が弱いか、全く起こらないのかを簡単な最適化ベースで説明する。
我々の知る限りでは、モデルワイドの二重降下に寄与する多くの異なる要因が最適化の観点から統一されていることを最初に示す。
現実の機械学習のセットアップでは、二重降下が問題になる可能性は低い。
論文 参考訳(メタデータ) (2023-12-06T23:29:00Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Origins of Low-dimensional Adversarial Perturbations [17.17170592140042]
分類における低次元対向摂動現象について検討した。
目標は、分類器を騙して、指定されたクラスからの入力のゼロではない割合でその決定を反転させることである。
任意の部分空間のばかばかし率の低いバウンドを計算する。
論文 参考訳(メタデータ) (2022-03-25T17:02:49Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。