論文の概要: Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems
- arxiv url: http://arxiv.org/abs/2401.04013v1
- Date: Mon, 8 Jan 2024 16:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:46:46.311683
- Title: Weak Correlations as the Underlying Principle for Linearization of
Gradient-Based Learning Systems
- Title(参考訳): 勾配学習システムの線形化の原理としての弱相関
- Authors: Ori Shem-Ur, Yaron Oz
- Abstract要約: 本稿では,パラメータの動的構造を線形に表示する勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、仮説関数の第一階微分と高階微分の間の弱い相関によるものである。
線形性と弱相関の関係を爆発させることにより,勾配降下の訓練軌道中に観測された線形性から偏差を導出する。
- 参考スコア(独自算出の注目度): 1.0878040851638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models, such as wide neural networks, can be conceptualized as
nonlinear dynamical physical systems characterized by a multitude of
interacting degrees of freedom. Such systems in the infinite limit, tend to
exhibit simplified dynamics. This paper delves into gradient descent-based
learning algorithms, that display a linear structure in their parameter
dynamics, reminiscent of the neural tangent kernel. We establish this apparent
linearity arises due to weak correlations between the first and higher-order
derivatives of the hypothesis function, concerning the parameters, taken around
their initial values. This insight suggests that these weak correlations could
be the underlying reason for the observed linearization in such systems. As a
case in point, we showcase this weak correlations structure within neural
networks in the large width limit. Exploiting the relationship between
linearity and weak correlations, we derive a bound on deviations from linearity
observed during the training trajectory of stochastic gradient descent. To
facilitate our proof, we introduce a novel method to characterise the
asymptotic behavior of random tensors.
- Abstract(参考訳): 広いニューラルネットワークのようなディープラーニングモデルは、様々な相互作用する自由度によって特徴づけられる非線形力学物理系として概念化することができる。
このような無限極限系は、単純化されたダイナミクスを示す傾向がある。
本稿では,ニューラルネットワークカーネルを連想させるパラメータの線形構造を示す勾配降下に基づく学習アルゴリズムについて述べる。
この明らかな線型性は、パラメータに関する仮説関数の第一階と高等階の導関数と、その初期値に関する弱い相関によって生じる。
この知見は、これらの弱い相関がそのような系における観測された線形化の根本的な理由であることを示唆している。
そこで,本研究では,ニューラルネットワーク内の弱い相関構造を幅の広い範囲で示す。
線形性と弱相関の関係を生かして,確率的勾配降下の訓練軌跡中に観測された線形性からの偏差を導出する。
そこで本研究では,ランダムテンソルの漸近的挙動を特徴付ける新しい手法を提案する。
関連論文リスト
- Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文 参考訳(メタデータ) (2024-03-31T01:41:57Z) - Feature learning as alignment: a structural property of gradient descent in non-linear neural networks [13.032185349152492]
トレーニング中にNFA (Neural Feature Ansatz) が相関することが明らかとなった。
このアライメントは,SGDによって誘導される重量変化と,前活性化機能との相互作用によって引き起こされることが確認された。
我々は、微分アライメントが特定の高次元設定でほぼ確実に起こることを証明した。
論文 参考訳(メタデータ) (2024-02-07T21:31:53Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Identifiability and Asymptotics in Learning Homogeneous Linear ODE Systems from Discrete Observations [114.17826109037048]
通常の微分方程式(ODE)は、機械学習において最近多くの注目を集めている。
理論的な側面、例えば、統計的推定の識別可能性と特性は、いまだに不明である。
本稿では,1つの軌道からサンプリングされた等間隔の誤差のない観測結果から,同次線形ODE系の同定可能性について十分な条件を導出する。
論文 参考訳(メタデータ) (2022-10-12T06:46:38Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。