論文の概要: Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks
- arxiv url: http://arxiv.org/abs/2201.04738v1
- Date: Wed, 12 Jan 2022 23:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 14:07:50.803926
- Title: Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks
- Title(参考訳): パラメータ下ニューラルネットワークにおけるMSE勾配最適化の入射バイアス
- Authors: Benjamin Bowman and Guido Montufar
- Abstract要約: 勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the dynamics of a neural network in function space when optimizing
the mean squared error via gradient flow. We show that in the
underparameterized regime the network learns eigenfunctions of an integral
operator $T_{K^\infty}$ determined by the Neural Tangent Kernel (NTK) at rates
corresponding to their eigenvalues. For example, for uniformly distributed data
on the sphere $S^{d - 1}$ and rotation invariant weight distributions, the
eigenfunctions of $T_{K^\infty}$ are the spherical harmonics. Our results can
be understood as describing a spectral bias in the underparameterized regime.
The proofs use the concept of "Damped Deviations", where deviations of the NTK
matter less for eigendirections with large eigenvalues due to the occurence of
a damping factor. Aside from the underparameterized regime, the damped
deviations point-of-view can be used to track the dynamics of the empirical
risk in the overparameterized setting, allowing us to extend certain results in
the literature. We conclude that damped deviations offers a simple and unifying
perspective of the dynamics when optimizing the squared error.
- Abstract(参考訳): 勾配流による平均二乗誤差を最適化する際の関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ネットワークは, 固有値に対応する速度で, ニューラルタンジェントカーネル(NTK)によって決定される積分作用素$T_{K^\infty}$の固有関数を学習することを示した。
例えば、球面 $S^{d - 1}$ 上の均一分布データと回転不変量分布に対して、$T_{K^\infty}$ の固有函数は球面調和である。
本研究の結果は, 偏光状態のスペクトルバイアスを記述したものと解釈できる。
証明は「ダンプされた偏差」という概念を用いており、NTKの偏差は減衰係数の出現による大きな固有値を持つ固有方向に対してより少ない。
過パラメータ化体制の他に、減衰偏差点を用いて、過パラメータ化環境における経験的リスクのダイナミクスを追跡し、文献における特定の結果を拡張することができる。
減衰偏差は、二乗誤差を最適化する際のダイナミクスの単純で統一的な視点を与えると結論づける。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Symmetries in the dynamics of wide two-layer neural networks [0.0]
無限広2層ReLUニューラルネットワークの集団リスクに対する勾配流の最適設定について(バイアスなしで)考察する。
まず,対象関数$f*$と入力分布で満たされた対称性の一般クラスを動的に保存する。
論文 参考訳(メタデータ) (2022-11-16T08:59:26Z) - Single Trajectory Nonparametric Learning of Nonlinear Dynamics [8.438421942654292]
力学系の1つの軌道が与えられた場合、非パラメトリック最小二乗推定器(LSE)の性能を解析する。
我々は最近開発された情報理論手法を活用し、非仮説クラスに対するLSEの最適性を確立する。
我々は、リプシッツ力学、一般化線形モデル、再生ケルネルヒルベルト空間(RKHS)のある種のクラスで記述される関数によって記述される力学など、実用上の関心のあるいくつかのシナリオを専門とする。
論文 参考訳(メタデータ) (2022-02-16T19:38:54Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Inductive Bias of Gradient Descent for Exponentially Weight Normalized
Smooth Homogeneous Neural Nets [1.7259824817932292]
我々は,指数的あるいはクロスエントロピー損失のトレーニングにおいて,重み付き平滑な均質ニューラルネットの勾配降下の誘導バイアスを解析した。
本稿では,EWNを用いた勾配流路が適応学習率の標準ネットワーク上での勾配流と等価であることを示す。
論文 参考訳(メタデータ) (2020-10-24T14:34:56Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z) - Solving high-dimensional eigenvalue problems using deep neural networks:
A diffusion Monte Carlo like approach [14.558626910178127]
固有値問題は、演算子によって誘導される半群フローの固定点問題として再構成される。
この方法は拡散モンテカルロと同様の精神を持つが、ニューラル・ネットワーク・アンサッツによる固有関数への直接近似を増大させる。
我々の手法はいくつかの数値例で正確な固有値と固有関数の近似を提供することができる。
論文 参考訳(メタデータ) (2020-02-07T03:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。