論文の概要: Deconstructing the Goldilocks Zone of Neural Network Initialization
- arxiv url: http://arxiv.org/abs/2402.03579v1
- Date: Mon, 5 Feb 2024 23:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:21:36.972501
- Title: Deconstructing the Goldilocks Zone of Neural Network Initialization
- Title(参考訳): ニューラルネットワーク初期化におけるgoldilocksゾーンの再構成
- Authors: Artem Vysogorets, Anna Dawid, and Julia Kempe
- Abstract要約: 等質ニューラルネットワークにおけるGoldilocksゾーンの包括的解析について述べる。
我々は, モデル信頼度, 初期損失率, 以前は知られていなかったクロスエントロピー損失勾配について, 高い正の曲率について検討した。
強力なモデルパフォーマンスが必ずしもGoldilocksゾーンと一致しているとは限らないことが分かりました。
- 参考スコア(独自算出の注目度): 6.349503549199403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The second-order properties of the training loss have a massive impact on the
optimization dynamics of deep learning models. Fort & Scherlis (2019)
discovered that a high positive curvature and local convexity of the loss
Hessian are associated with highly trainable initial points located in a region
coined the "Goldilocks zone". Only a handful of subsequent studies touched upon
this relationship, so it remains largely unexplained. In this paper, we present
a rigorous and comprehensive analysis of the Goldilocks zone for homogeneous
neural networks. In particular, we derive the fundamental condition resulting
in non-zero positive curvature of the loss Hessian and argue that it is only
incidentally related to the initialization norm, contrary to prior beliefs.
Further, we relate high positive curvature to model confidence, low initial
loss, and a previously unknown type of vanishing cross-entropy loss gradient.
To understand the importance of positive curvature for trainability of deep
networks, we optimize both fully-connected and convolutional architectures
outside the Goldilocks zone and analyze the emergent behaviors. We find that
strong model performance is not necessarily aligned with the Goldilocks zone,
which questions the practical significance of this concept.
- Abstract(参考訳): トレーニング損失の2次特性は、ディープラーニングモデルの最適化ダイナミクスに大きな影響を与える。
fort & scherlis (2019) は、高正の曲率と損失ヘッセンの局所凸性が「ゴールデンロックゾーン」と呼ばれる地域にある高度に訓練可能な初期点と関連していることを発見した。
その後もこの関係に触発された研究はごくわずかであり、ほとんど説明されていない。
本稿では,均質ニューラルネットワークのためのgoldilocksゾーンの厳密かつ包括的な解析を行う。
特に、損失ヘッシアンの非零正曲率をもたらす基本条件を導出し、それは事前の信念とは対照的に初期化ノルムと付随的にのみ関連していると主張する。
さらに、高い正曲率をモデル信頼度、低い初期損失、以前は知られていなかったクロスエントロピー損失勾配に関連付ける。
深層ネットワークのトレーニング性に対する正曲率の重要性を理解するため,Goldilocksゾーン外における完全連結アーキテクチャと畳み込みアーキテクチャの両方を最適化し,創発的挙動を解析する。
強力なモデル性能は必ずしもGoldilocksゾーンと一致していないことが分かり、この概念の実用的意義を疑問視する。
関連論文リスト
- ProPINN: Demystifying Propagation Failures in Physics-Informed Neural Networks [71.02216400133858]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解法において高い期待を得た
以前の研究では、PINNの伝播不良現象が観察された。
本論文は,伝播不良とその根本原因について,初めて公式かつ詳細な研究を行ったものである。
論文 参考訳(メタデータ) (2025-02-02T13:56:38Z) - Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities [14.741581246137404]
本研究では,大きな学習率によって引き起こされる不安定さが,損失景観の平坦な領域へモデルパラメータを移動させることを示す。
最新のベンチマークデータセットでは,これらが優れた一般化性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-12-23T14:32:53Z) - The Persistence of Neural Collapse Despite Low-Rank Bias: An Analytic Perspective Through Unconstrained Features [0.0]
ディープニューラルネットワークは最終層の特徴と重みにおいて単純な構造を示し、一般に神経崩壊と呼ばれる。
最近の知見は、そのような構造は、深い制約のない特徴モデルでは一般的に最適ではないことを示している。
これは正則化によって引き起こされる低ランクバイアスによるもので、これは一般的に深い神経崩壊に関連するものよりも低いランクの解を好む。
論文 参考訳(メタデータ) (2024-10-30T16:20:39Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - How many Neurons do we need? A refined Analysis for Shallow Networks
trained with Gradient Descent [0.0]
ニューラル・タンジェント・カーネル・システムにおける2層ニューラルネットワークの一般化特性を解析した。
非パラメトリック回帰の枠組みにおいて、最小限最適であることが知られている収束の速い速度を導出する。
論文 参考訳(メタデータ) (2023-09-14T22:10:28Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - On the Convex Behavior of Deep Neural Networks in Relation to the
Layers' Width [99.24399270311069]
より広いネットワークにおいて、降下最適化による損失を最小限に抑え、トレーニングの開始時と終了時に正の曲率の表面を貫き、その間の曲率をほぼゼロにすることを観察する。
言い換えれば、トレーニングプロセスの重要な部分において、広いネットワークにおけるヘッセンはG成分によって支配されているようである。
論文 参考訳(メタデータ) (2020-01-14T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。