論文の概要: On the dynamics of three-layer neural networks: initial condensation
- arxiv url: http://arxiv.org/abs/2402.15958v2
- Date: Tue, 27 Feb 2024 05:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 11:16:28.748857
- Title: On the dynamics of three-layer neural networks: initial condensation
- Title(参考訳): 三層ニューラルネットワークのダイナミクス:初期凝縮について
- Authors: Zheng-An Chen, Tao Luo
- Abstract要約: 凝縮は、勾配法が自然にニューラルネットワークの複雑さを減少させるときに起こる。
有効動力学の爆破特性を確立し, 凝縮の発生に十分な条件を示す。
また, 深部行列分解における凝縮と低ランクバイアスの関係についても検討した。
- 参考スコア(独自算出の注目度): 2.022855152231054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical and theoretical works show that the input weights of two-layer
neural networks, when initialized with small values, converge towards isolated
orientations. This phenomenon, referred to as condensation, indicates that the
gradient descent methods tend to spontaneously reduce the complexity of neural
networks during the training process. In this work, we elucidate the mechanisms
behind the condensation phenomena occurring in the training of three-layer
neural networks and distinguish it from the training of two-layer neural
networks. Through rigorous theoretical analysis, we establish the blow-up
property of effective dynamics and present a sufficient condition for the
occurrence of condensation, findings that are substantiated by experimental
results. Additionally, we explore the association between condensation and the
low-rank bias observed in deep matrix factorization.
- Abstract(参考訳): 経験的および理論的研究は、2層ニューラルネットワークの入力重みが小さな値で初期化されると、孤立した向きに収束することを示している。
この現象は凝縮と呼ばれ、勾配降下法がトレーニング過程でニューラルネットワークの複雑さを自然に減少させる傾向があることを示している。
本研究では,三層ニューラルネットワークの学習中に発生する凝縮現象の背後にあるメカニズムを解明し,二層ニューラルネットワークの学習と区別する。
理論的に厳密な解析を行い, 有効動力学のブローアップ特性を確立し, 凝縮の発生に十分な条件を提示する。
さらに, 深部行列分解における凝縮と低ランクバイアスの関係について検討した。
関連論文リスト
- Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - Understanding the Initial Condensation of Convolutional Neural Networks [6.451914896767135]
2層畳み込みニューラルネットワークのカーネルは、トレーニング中に1つまたは数つの方向に収束する。
この研究は、特殊な構造を持つニューラルネットワークが示す非線形トレーニングの振る舞いをより深く理解するための一歩である。
論文 参考訳(メタデータ) (2023-05-17T05:00:47Z) - Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-03-12T03:55:38Z) - Stochastic Gradient Descent-Induced Drift of Representation in a
Two-Layer Neural Network [0.0]
脳や人工ネットワークで観察されているにもかかわらず、ドリフトのメカニズムとその意味は完全には理解されていない。
ピリフォーム大脳皮質における刺激依存性のドリフトに関する最近の実験結果に触発されて、我々はこの現象を2層線形フィードフォワードネットワークで研究するために理論とシミュレーションを用いた。
論文 参考訳(メタデータ) (2023-02-06T04:56:05Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - A duality connecting neural network and cosmological dynamics [0.0]
本研究では、勾配降下によるニューラルネットワークの力学と、平らで真空エネルギーが支配する宇宙におけるスカラー場の力学が構造的に関連していることを示す。
この双対性は、ニューラルネットワークのダイナミクスを理解し説明するための、これらのシステム間のシナジーのためのフレームワークを提供する。
論文 参考訳(メタデータ) (2022-02-22T19:00:01Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。