論文の概要: The twin peaks of learning neural networks
- arxiv url: http://arxiv.org/abs/2401.12610v2
- Date: Mon, 1 Apr 2024 16:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 09:00:10.833050
- Title: The twin peaks of learning neural networks
- Title(参考訳): ニューラルネットワーク学習のツインピーク
- Authors: Elizaveta Demyanenko, Christoph Feinauer, Enrico M. Malatesta, Luca Saglietti,
- Abstract要約: 近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。
この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
- 参考スコア(独自算出の注目度): 3.382017614888546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works demonstrated the existence of a double-descent phenomenon for the generalization error of neural networks, where highly overparameterized models escape overfitting and achieve good test performance, at odds with the standard bias-variance trade-off described by statistical learning theory. In the present work, we explore a link between this phenomenon and the increase of complexity and sensitivity of the function represented by neural networks. In particular, we study the Boolean mean dimension (BMD), a metric developed in the context of Boolean function analysis. Focusing on a simple teacher-student setting for the random feature model, we derive a theoretical analysis based on the replica method that yields an interpretable expression for the BMD, in the high dimensional regime where the number of data points, the number of features, and the input size grow to infinity. We find that, as the degree of overparameterization of the network is increased, the BMD reaches an evident peak at the interpolation threshold, in correspondence with the generalization error peak, and then slowly approaches a low asymptotic value. The same phenomenology is then traced in numerical experiments with different model classes and training setups. Moreover, we find empirically that adversarially initialized models tend to show higher BMD values, and that models that are more robust to adversarial attacks exhibit a lower BMD.
- Abstract(参考訳): 近年の研究では、過度にパラメータ化されたモデルが過度に適合し、テスト性能が向上するニューラルネットワークの一般化誤差に対して、統計学習理論によって記述された標準バイアス分散トレードオフに反する、二重発振現象の存在が実証されている。
本研究では,この現象とニューラルネットワークで表される関数の複雑性と感度の増大との関係について検討する。
特に,ブール関数解析の文脈で開発された計量であるブール平均次元(BMD)について検討する。
ランダムな特徴モデルに対する簡単な教師学生設定に着目し,データ点数,特徴数,入力サイズが無限大となる高次元状態において,BMDの解釈可能な表現を生成するレプリカ法に基づく理論的解析を導出する。
ネットワークの過度パラメータ化の度合いが大きくなるにつれて、BMDは一般化誤差ピークに対応して補間しきい値で明らかなピークに達し、その後徐々に低漸近値に近づいた。
同じ現象論は、異なるモデルクラスとトレーニング設定を持つ数値実験で追跡される。
さらに, 逆初期化モデルでは, 高いBMD値を示す傾向があり, 敵攻撃に対してより堅牢なモデルでは低いBMDを示すことが実証的に確認された。
関連論文リスト
- Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。