論文の概要: Deep Linear Networks can Benignly Overfit when Shallow Ones Do
- arxiv url: http://arxiv.org/abs/2209.09315v1
- Date: Mon, 19 Sep 2022 19:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 17:24:25.147585
- Title: Deep Linear Networks can Benignly Overfit when Shallow Ones Do
- Title(参考訳): 深い線形ネットワークは、浅すぎるネットワークがうまく機能する
- Authors: Niladri S. Chatterji, Philip M. Long
- Abstract要約: ランダムに深い線形ネットワークは、最小$ell$-norm補間器の既知境界に密接な近似や整合が可能であることを示す。
解析により、深い線形モデルの補間は最小$ell$-norm解と全く同じ条件分散を持つことが明らかになった。
- 参考スコア(独自算出の注目度): 16.1176305285103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We bound the excess risk of interpolating deep linear networks trained using
gradient flow. In a setting previously used to establish risk bounds for the
minimum $\ell_2$-norm interpolant, we show that randomly initialized deep
linear networks can closely approximate or even match known bounds for the
minimum $\ell_2$-norm interpolant. Our analysis also reveals that interpolating
deep linear models have exactly the same conditional variance as the minimum
$\ell_2$-norm solution. Since the noise affects the excess risk only through
the conditional variance, this implies that depth does not improve the
algorithm's ability to "hide the noise". Our simulations verify that aspects of
our bounds reflect typical behavior for simple data distributions. We also find
that similar phenomena are seen in simulations with ReLU networks, although the
situation there is more nuanced.
- Abstract(参考訳): 我々は勾配流を用いて訓練した深い線形ネットワークを補間する余剰リスクを負う。
最小$\ell_2$-norm補間に対するリスク境界を確立するために以前用いられた設定において、ランダムに初期化された深層線形ネットワークは最小$\ell_2$-norm補間に対する既知の境界を密に近似するか、あるいは一致させることができることを示す。
また,補間深部線形モデルは最小$\ell_2$-norm 解と全く同じ条件分散を持つことを明らかにした。
ノイズは条件付き分散によってのみ過剰なリスクに影響を及ぼすため、深さがアルゴリズムの「ノイズを隠す」能力を向上させることはない。
我々のシミュレーションは、単純なデータ分布の典型的な振舞いを反映していることを検証する。
また、ReLUネットワークを用いたシミュレーションでも同様の現象が見られるが、状況は微妙である。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Sample Complexity of Neural Policy Mirror Descent for Policy
Optimization on Low-Dimensional Manifolds [75.51968172401394]
深部畳み込みニューラルネットワーク(CNN)を用いたNPMDアルゴリズムのサンプル複雑性について検討した。
NPMDの各イテレーションでは、値関数とポリシーの両方をCNNによってうまく近似することができる。
NPMDは状態空間の低次元構造を利用して次元の呪いから逃れることができることを示す。
論文 参考訳(メタデータ) (2023-09-25T07:31:22Z) - Noisy Interpolation Learning with Shallow Univariate ReLU Networks [33.900009202637285]
Mallinar et. al. 2022 は、ニューラルネットワークはしばしば誘惑的な過剰適合を示すが、人口リスクはベイズ最適誤差に収束しないと指摘した。
最小重み付き回帰の過度適合挙動を厳密に分析した。
論文 参考訳(メタデータ) (2023-07-28T08:41:12Z) - Implicit Regularization Leads to Benign Overfitting for Sparse Linear
Regression [16.551664358490658]
ディープラーニングでは、しばしばトレーニングプロセスは補間子(トレーニング損失0のソリューション)を見つけるが、テスト損失は依然として低い。
良性オーバーフィッティングの一般的なメカニズムは暗黙の正則化であり、そこでは、トレーニングプロセスが補間子にさらなる特性をもたらす。
勾配勾配勾配による新モデルの訓練は, ほぼ最適試験損失を伴う補間器に導かれることを示す。
論文 参考訳(メタデータ) (2023-02-01T05:41:41Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Minimum $\ell_{1}$-norm interpolators: Precise asymptotics and multiple
descent [19.781475554462553]
本稿では、最小$ell_1$-norm補間器という、重要な種類の補間器の理論的理解を追求する。
我々は、奇異な多発現象である厳密な理論的正当化を観察し、提供する。
我々の発見は、2つの未知の非線形方程式からなる2つのシステムによって制御されるリスク行動の正確な特徴に基づいている。
論文 参考訳(メタデータ) (2021-10-18T17:51:14Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z) - Revealing the Structure of Deep Neural Networks via Convex Duality [70.15611146583068]
我々は,正規化深層ニューラルネットワーク(DNN)について検討し,隠蔽層の構造を特徴付ける凸解析フレームワークを導入する。
正規正規化学習問題に対する最適隠蔽層重みの集合が凸集合の極点として明確に見出されることを示す。
ホワイトデータを持つ深部ReLUネットワークに同じ特徴を応用し、同じ重み付けが成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-22T21:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。