論文の概要: Phase Diagram of Initial Condensation for Two-layer Neural Networks
- arxiv url: http://arxiv.org/abs/2303.06561v1
- Date: Sun, 12 Mar 2023 03:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:14:19.479592
- Title: Phase Diagram of Initial Condensation for Two-layer Neural Networks
- Title(参考訳): 2層ニューラルネットワークの初期凝縮の位相図
- Authors: Zhengan Chen, Yuqing Li, Tao Luo, Zhangchen Zhou, Zhi-Qin John Xu
- Abstract要約: 2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
- 参考スコア(独自算出の注目度): 4.404198015660192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The phenomenon of distinct behaviors exhibited by neural networks under
varying scales of initialization remains an enigma in deep learning research.
In this paper, based on the earlier work by Luo et al.~\cite{luo2021phase}, we
present a phase diagram of initial condensation for two-layer neural networks.
Condensation is a phenomenon wherein the weight vectors of neural networks
concentrate on isolated orientations during the training process, and it is a
feature in non-linear learning process that enables neural networks to possess
better generalization abilities. Our phase diagram serves to provide a
comprehensive understanding of the dynamical regimes of neural networks and
their dependence on the choice of hyperparameters related to initialization.
Furthermore, we demonstrate in detail the underlying mechanisms by which small
initialization leads to condensation at the initial training stage.
- Abstract(参考訳): ニューラルネットワークが様々な初期化のスケールで異なる行動を示す現象は、深層学習研究において謎のままである。
本稿では、Luoらによる初期の研究を基にした。
~\cite{luo2021phase},二層ニューラルネットワークの初期凝縮の位相図を示す。
凝縮は、ニューラルネットワークの重みベクトルがトレーニングプロセス中に孤立した方向に集中する現象であり、ニューラルネットワークがより良い一般化能力を持つことを可能にする非線形学習プロセスの特徴である。
我々のフェーズダイアグラムは、ニューラルネットワークのダイナミックな状態と、初期化に関連するハイパーパラメータの選択への依存を包括的に理解するのに役立ちます。
さらに,初期訓練段階において,小さな初期化が凝縮につながるメカニズムを詳細に示す。
関連論文リスト
- Collective variables of neural networks: empirical time evolution and scaling laws [0.535514140374842]
実験的なニューラル・タンジェント・カーネルのスペクトル、特にエントロピーとトレースのスペクトルに対する特定の測定により、ニューラルネットワークが学習した表現についての洞察が得られることを示す。
結果は、トランスフォーマー、オートエンコーダ、グラフニューラルネットワーク、強化学習研究など、より複雑なネットワークで示される前に、まずテストケースで実証される。
論文 参考訳(メタデータ) (2024-10-09T21:37:14Z) - Contrastive Learning in Memristor-based Neuromorphic Systems [55.11642177631929]
スパイクニューラルネットワークは、現代のバックプロパゲーションによって訓練されたディープネットワークに直面する重要な制約の多くを横取りする、ニューロンベースのモデルの重要なファミリーとなっている。
本研究では,前向き・後向き学習のニューロモルフィック形式であるコントラッシブ・シグナル依存型塑性(CSDP)の概念実証を設計し,検討する。
論文 参考訳(メタデータ) (2024-09-17T04:48:45Z) - Opening the Black Box: predicting the trainability of deep neural networks with reconstruction entropy [0.0]
本稿では,ディープフィードフォワードニューラルネットワークのパラメータ空間におけるトレーニング可能な状態を予測する手法を提案する。
MNISTとCIFAR10の両方のデータセットに対して、トレーニングの1つのエポックが、ディープフィードフォワードネットワークのトレーニング可能性を予測するのに十分であることを示す。
論文 参考訳(メタデータ) (2024-06-13T18:00:05Z) - Early Directional Convergence in Deep Homogeneous Neural Networks for
Small Initializations [2.310288676109785]
本稿では、深部均一性ニューラルネットワークのトレーニング時に発生する勾配流れのダイナミクスについて検討する。
ニューラルネットワークの重みは標準では小さく、カルーシュ=クーン=タッカー点に沿ってほぼ収束している。
論文 参考訳(メタデータ) (2024-03-12T23:17:32Z) - On the dynamics of three-layer neural networks: initial condensation [2.022855152231054]
凝縮は、勾配法が自然にニューラルネットワークの複雑さを減少させるときに起こる。
有効動力学の爆破特性を確立し, 凝縮の発生に十分な条件を示す。
また, 深部行列分解における凝縮と低ランクバイアスの関係についても検討した。
論文 参考訳(メタデータ) (2024-02-25T02:36:14Z) - Understanding the Initial Condensation of Convolutional Neural Networks [6.451914896767135]
2層畳み込みニューラルネットワークのカーネルは、トレーニング中に1つまたは数つの方向に収束する。
この研究は、特殊な構造を持つニューラルネットワークが示す非線形トレーニングの振る舞いをより深く理解するための一歩である。
論文 参考訳(メタデータ) (2023-05-17T05:00:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Spiking neural network for nonlinear regression [68.8204255655161]
スパイクニューラルネットワークは、メモリとエネルギー消費を大幅に削減する可能性を持っている。
彼らは、次世代のニューロモルフィックハードウェアによって活用できる時間的および神経的疎結合を導入する。
スパイキングニューラルネットワークを用いた回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:04:45Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。