論文の概要: Kernel and Rich Regimes in Overparametrized Models
- arxiv url: http://arxiv.org/abs/2002.09277v3
- Date: Mon, 27 Jul 2020 15:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:07:48.985974
- Title: Kernel and Rich Regimes in Overparametrized Models
- Title(参考訳): 過パラメータモデルにおけるカーネルとリッチレジーム
- Authors: Blake Woodworth, Suriya Gunasekar, Jason D. Lee, Edward Moroshko,
Pedro Savarese, Itay Golan, Daniel Soudry, Nathan Srebro
- Abstract要約: 過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
- 参考スコア(独自算出の注目度): 69.40899443842443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent line of work studies overparametrized neural networks in the "kernel
regime," i.e. when the network behaves during training as a kernelized linear
predictor, and thus training with gradient descent has the effect of finding
the minimum RKHS norm solution. This stands in contrast to other studies which
demonstrate how gradient descent on overparametrized multilayer networks can
induce rich implicit biases that are not RKHS norms. Building on an observation
by Chizat and Bach, we show how the scale of the initialization controls the
transition between the "kernel" (aka lazy) and "rich" (aka active) regimes and
affects generalization properties in multilayer homogeneous models. We also
highlight an interesting role for the width of a model in the case that the
predictor is not identically zero at initialization. We provide a complete and
detailed analysis for a family of simple depth-$D$ models that already exhibit
an interesting and meaningful transition between the kernel and rich regimes,
and we also demonstrate this transition empirically for more complex matrix
factorization models and multilayer non-linear networks.
- Abstract(参考訳): カーネルシステム」における過度にパラメータ化されたニューラルネットワーク、すなわち、トレーニング中にネットワークがカーネル化された線形予測器として振る舞う場合、勾配勾配によるトレーニングは、最小のRKHS標準解を見つける効果を持つ。
これは、過度にパラメータ化された多層ネットワーク上の勾配降下が、RKHSノルムではない豊富な暗黙バイアスを誘発することを示す他の研究とは対照的である。
チザットとバッハの観測に基づいて、初期化のスケールが「カーネル」(または遅延)と「リッチ」(または活性)の遷移を制御し、多層同質モデルの一般化特性に影響を与えることを示す。
また,初期化時に予測器がゼロでない場合に,モデルの幅に対して興味深い役割を担っている。
すでにカーネルとリッチレジームの間の興味深い有意義な遷移を示す、単純な深さ$d$モデルのファミリーの完全かつ詳細な分析を提供し、より複雑な行列分解モデルと多層非線形ネットワークに対して経験的にこの遷移を実証する。
関連論文リスト
- How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Phase diagram for two-layer ReLU neural networks at infinite-width limit [6.380166265263755]
我々は、2層ReLUニューラルネットワークの位相図を無限幅極限で描画する。
位相図の3つのレギュレーション、すなわち線形レギュレーション、臨界レギュレーション、凝縮レギュレーションを同定する。
線形状態においては、NNトレーニングダイナミクスは指数的損失減衰を持つランダム特徴モデルとほぼ同様の線形である。
凝縮状態において、能動ニューロンがいくつかの異なる向きで凝縮されていることを示す実験を通して、我々は実験を行う。
論文 参考訳(メタデータ) (2020-07-15T06:04:35Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。