Fugu-MT 論文翻訳(概要): Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation

論文の概要: Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation

arxiv url: http://arxiv.org/abs/2311.14120v1
Date: Thu, 23 Nov 2023 17:30:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 23:08:59.769910
Title: Weight fluctuations in (deep) linear neural networks and a derivation of the inverse-variance flatness relation
Title（参考訳）: 深い)線形ニューラルネットワークにおける重み変動と逆分散平坦性関係の導出
Authors: Markus Gross, Arne P. Raulf, Christoph R\"ath
Abstract要約: 単層および二層線形ニューラルネットワークの定常的(リアルタイム)学習状況について検討する。重み変動に対する新しい異方性源として層間結合を同定する。
参考スコア（独自算出の注目度）: 7.917351629116003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate the stationary (late-time) training regime of single- and two-layer linear neural networks within the continuum limit of stochastic gradient descent (SGD) for synthetic Gaussian data. In the case of a single-layer network in the weakly oversampled regime, the spectrum of the noise covariance matrix deviates notably from the Hessian, which can be attributed to the broken detailed balance of SGD dynamics. The weight fluctuations are in this case generally anisotropic, but experience an isotropic loss. For a two-layer network, we obtain the stochastic dynamics of the weights in each layer and analyze the associated stationary covariances. We identify the inter-layer coupling as a new source of anisotropy for the weight fluctuations. In contrast to the single-layer case, the weight fluctuations experience an anisotropic loss, the flatness of which is inversely related to the fluctuation variance. We thereby provide an analytical derivation of the recently observed inverse variance-flatness relation in a deep linear network model.
Abstract（参考訳）: 合成ガウスデータに対する確率勾配降下(SGD)の連続限界内における単層および二層線形ニューラルネットワークの定常的(時間的)訓練条件について検討した。弱いオーバーサンプリング状態の単一層ネットワークの場合、ノイズ共分散行列のスペクトルは特にヘシアンから逸脱し、これはSGD力学の詳細なバランスの破れに起因する。この場合、重量変動は一般に異方性であるが、等方性損失を経験する。 2層ネットワークでは,各層内の重みの確率的ダイナミクスを求め,関連する定常共分散の解析を行う。重みのゆらぎに対する新しい異方性源として層間カップリングを同定した。単層の場合とは対照的に、重量変動は異方性損失を経験し、その平坦さは変動分散と逆関係である。そこで我々は,最近観測された線形ネットワークモデルにおける逆分散-平坦性関係の解析的導出を行う。

関連論文リスト

The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
Evidential Physics-Informed Neural Networks [0.0]
本稿では,エビデンシャル・ディープ・ラーニングの原理に基づいて定式化された物理インフォームド・ニューラル・ニューラルネットワークの新たなクラスを提案する。 1次元および2次元非線形微分方程式を含む逆問題に対して、我々のモデルを適用する方法を示す。
論文参考訳（メタデータ） (2025-01-27T10:01:10Z)
High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文参考訳（メタデータ） (2024-06-05T12:03:27Z)
Law of Balance and Stationary Distribution of Stochastic Gradient Descent [11.937085301750288]
我々は、損失関数が再スケーリング対称性を含む場合、勾配降下(SGD)のミニバッチノイズが平衡解に対する解を正則化することを証明した。次に、任意の深さと幅を持つ対角線ネットワークの勾配流の定常分布を導出する。これらの現象はディープ・ネットワークに独自に存在することが示され、ディープ・モデルと浅瀬モデルの間に根本的な違いが示唆される。
論文参考訳（メタデータ） (2023-08-13T03:13:03Z)
Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文参考訳（メタデータ） (2023-06-06T09:12:49Z)
Stochastic Modified Equations and Dynamics of Dropout Algorithm [4.811269936680572]
ドロップアウトはニューラルネットワークのトレーニングにおいて広く利用されている正規化技術である。その基盤となるメカニズムと優れた能力を達成するための影響は、いまだに理解されていない。
論文参考訳（メタデータ） (2023-05-25T08:42:25Z)
Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文参考訳（メタデータ） (2023-04-08T07:55:36Z)
Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。 DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文参考訳（メタデータ） (2023-02-07T10:51:53Z)
Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文参考訳（メタデータ） (2022-03-14T17:39:49Z)
Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。 SGDは単純な解に偏りがあることが示される。また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文参考訳（メタデータ） (2021-11-03T15:14:20Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文参考訳（メタデータ） (2021-08-25T22:01:01Z)
Equivariant Wavelets: Fast Rotation and Translation Invariant Wavelet Scattering Transforms [0.0]
画像統計に対称性を与えることは、人間の解釈性を改善し、一般化を助け、寸法減少をもたらす。本稿では,高速かつ変換不変かつ回転不変なウェーブレット散乱ネットワークを提案する。
論文参考訳（メタデータ） (2021-04-22T18:00:01Z)
The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文参考訳（メタデータ） (2020-06-08T16:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。