論文の概要: Implicit Bias of Mirror Descent for Shallow Neural Networks in Univariate Regression
- arxiv url: http://arxiv.org/abs/2410.03988v1
- Date: Sat, 5 Oct 2024 00:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 14:50:11.568886
- Title: Implicit Bias of Mirror Descent for Shallow Neural Networks in Univariate Regression
- Title(参考訳): 一変量回帰における浅層ニューラルネットワークの鏡像の入射バイアス
- Authors: Shuang Liang, Guido Montúfar,
- Abstract要約: ネットワーク幅が無限大になる傾向にある場合、ミラーフローは遅延トレーニングを示し、通常の勾配流と同じ暗黙バイアスを有することを示す。
絶対値アクティベーションを持つネットワークの場合、スケールされたポテンシャルを持つミラーフローは、RKHSノルムによって捕捉できない豊富なバイアスのクラスを誘導することを示す。
- 参考スコア(独自算出の注目度): 24.3887959016133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine the implicit bias of mirror flow in univariate least squares error regression with wide and shallow neural networks. For a broad class of potential functions, we show that mirror flow exhibits lazy training and has the same implicit bias as ordinary gradient flow when the network width tends to infinity. For ReLU networks, we characterize this bias through a variational problem in function space. Our analysis includes prior results for ordinary gradient flow as a special case and lifts limitations which required either an intractable adjustment of the training data or networks with skip connections. We further introduce scaled potentials and show that for these, mirror flow still exhibits lazy training but is not in the kernel regime. For networks with absolute value activations, we show that mirror flow with scaled potentials induces a rich class of biases, which generally cannot be captured by an RKHS norm. A takeaway is that whereas the parameter initialization determines how strongly the curvature of the learned function is penalized at different locations of the input space, the scaled potential determines how the different magnitudes of the curvature are penalized.
- Abstract(参考訳): 広帯域・浅帯域ニューラルネットワークを用いた一変量最小二乗誤差回帰におけるミラーフローの暗黙バイアスについて検討した。
広い範囲の潜在的な関数に対して、ミラーフローは遅延トレーニングを示し、ネットワーク幅が無限大になる傾向にある場合、通常の勾配流と同じ暗黙バイアスを有することを示す。
ReLUネットワークの場合、関数空間の変動問題によってこのバイアスを特徴づける。
本分析では, 通常の勾配流を特別な場合として, トレーニングデータの難易度調整や, スキップ接続を伴うネットワークの制限を解除する。
さらに、スケールしたポテンシャルを導入し、ミラーフローがまだ遅延トレーニングを行っているが、カーネルシステムにはないことを示す。
絶対値アクティベーションを持つネットワークの場合、スケールされたポテンシャルを持つミラーフローは、RKHSノルムによって捕捉できない豊富なバイアスのクラスを誘導することを示す。
パラメータの初期化は、学習した関数の曲率が入力空間の異なる場所でどれだけ強くペナル化されるかを決定するが、スケールされたポテンシャルは曲率の異なる大きさがペナル化されるかを決定する。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness
in ReLU Networks [64.12052498909105]
本稿では,ReLUネットワークにおける勾配流の暗黙的バイアスが一般化と対角的ロバスト性に与える影響について検討する。
2層ReLUネットワークでは、勾配流は一般化された解に偏りがあるが、敵の例には非常に弱い。
論文 参考訳(メタデータ) (2023-03-02T18:14:35Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks [45.886537625951256]
単一ニューロンReLUネットワークのトレーニングにおけるパラメータ空間の勾配流れのダイナミクスについて検討する。
具体的には、ReLUネットワークにおいて、なぜ、どのようにしてReLUネットワークが一般化されるかにおいて重要な役割を果たすサポートベクトルの観点で、暗黙のバイアスを発見できる。
論文 参考訳(メタデータ) (2022-02-11T08:55:58Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - A Unifying View on Implicit Bias in Training Linear Neural Networks [31.65006970108761]
線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
論文 参考訳(メタデータ) (2020-10-06T06:08:35Z) - You say Normalizing Flows I see Bayesian Networks [11.23030807455021]
正規化フローは、予め定義された位相と各ノードでの学習可能な密度を持つベイズネットワークに還元されることを示す。
正規化フローにおける多重変換の積み重ねは独立性の仮定を緩和し、モデル分布を絡ませることを示す。
我々は,その深さに関わらず,アフィン正規化流れの不均一性を証明した。
論文 参考訳(メタデータ) (2020-06-01T11:54:50Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。