論文の概要: Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation
- arxiv url: http://arxiv.org/abs/2311.14120v2
- Date: Fri, 15 Mar 2024 16:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 22:53:06.757012
- Title: Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation
- Title(参考訳): 深い)線形ニューラルネットワークにおける重み変動と逆分散平坦性関係の導出
- Authors: Markus Gross, Arne P. Raulf, Christoph Räth,
- Abstract要約: 単層および二層線形パラメータ化ニューラルネットワークの定常(遅延)学習状況について検討する。
重み変動に対する新しい異方性源として層間結合を同定する。
本稿では,最近観測された線形ニューラルネットワークモデルにおける逆分散-平坦性関係の解析的導出について述べる。
- 参考スコア(独自算出の注目度): 6.122833099916154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the stationary (late-time) training regime of single- and two-layer linear underparameterized neural networks within the continuum limit of stochastic gradient descent (SGD) for synthetic Gaussian data. In the case of a single-layer network in the weakly underparameterized regime, the spectrum of the noise covariance matrix deviates notably from the Hessian, which can be attributed to the broken detailed balance of SGD dynamics. The weight fluctuations are in this case generally anisotropic, but are subject to an isotropic loss. For a two-layer network, we obtain the stochastic dynamics of the weights in each layer and analyze the associated stationary covariances. We identify the inter-layer coupling as a new source of anisotropy for the weight fluctuations. In contrast to the single-layer case, the weight fluctuations experience an anisotropic loss, the flatness of which is inversely related to the fluctuation variance. We thereby provide an analytical derivation of the recently observed inverse variance-flatness relation in a model of a deep linear neural network.
- Abstract(参考訳): 合成ガウスデータに対する確率勾配勾配勾配(SGD)の連続限界内における1層および2層線形パラメータ化ニューラルネットワークの定常的(時間的)訓練条件について検討した。
弱いパラメータ化状態の単一層ネットワークの場合、ノイズ共分散行列のスペクトルは特にヘシアンから逸脱し、これはSGD力学の詳細なバランスの破れに起因する。
この場合、重量のゆらぎは概して異方性であるが、等方性損失を受ける。
2層ネットワークの場合、各層における重みの確率的ダイナミクスを求め、関連する定常共分散を解析する。
重み変動に対する新しい異方性源として層間結合を同定する。
単層の場合とは対照的に、重みのゆらぎは異方性損失を経験し、その平坦度は揺らぎのばらつきと逆関係である。
そこで我々は,最近観測された逆分散-平坦性関係を,ディープ線形ニューラルネットワークのモデルで解析的に導出した。
関連論文リスト
- Law of Balance and Stationary Distribution of Stochastic Gradient
Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。
次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。
これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文 参考訳(メタデータ) (2023-08-13T03:13:03Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Stochastic Modified Equations and Dynamics of Dropout Algorithm [4.811269936680572]
ドロップアウトはニューラルネットワークのトレーニングにおいて広く利用されている正規化技術である。
その基盤となるメカニズムと優れた能力を達成するための影響は、いまだに理解されていない。
論文 参考訳(メタデータ) (2023-05-25T08:42:25Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Equivariant Wavelets: Fast Rotation and Translation Invariant Wavelet
Scattering Transforms [0.0]
画像統計に対称性を与えることは、人間の解釈性を改善し、一般化を助け、寸法減少をもたらす。
本稿では,高速かつ変換不変かつ回転不変なウェーブレット散乱ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-22T18:00:01Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。