論文の概要: Exact Phase Transitions in Deep Learning
- arxiv url: http://arxiv.org/abs/2205.12510v1
- Date: Wed, 25 May 2022 06:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 16:00:15.886519
- Title: Exact Phase Transitions in Deep Learning
- Title(参考訳): 深層学習における完全相転移
- Authors: Liu Ziyin, Masahito Ueda
- Abstract要約: トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
- 参考スコア(独自算出の注目度): 5.33024001730262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work reports deep-learning-unique first-order and second-order phase
transitions, whose phenomenology closely follows that in statistical physics.
In particular, we prove that the competition between prediction error and model
complexity in the training loss leads to the second-order phase transition for
nets with one hidden layer and the first-order phase transition for nets with
more than one hidden layer. The proposed theory is directly relevant to the
optimization of neural networks and points to an origin of the posterior
collapse problem in Bayesian deep learning.
- Abstract(参考訳): 本研究は, 統計物理学においてその現象学が密接に従う, ディープラーニング一階および二階相転移を報告する。
特に、トレーニング損失における予測誤差とモデル複雑性の競合は、1つの隠蔽層を持つネットの2次位相遷移と、複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論は,ニューラルネットワークの最適化に直接関連しており,ベイズ深層学習における後方崩壊問題の起源を指摘する。
関連論文リスト
- Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization [41.20978920228298]
第2フェーズは、経験的リスクが一定の閾値以下に落ちてから始まり、ステップサイズに依存することを示す。
また、正規化マージンは第2相においてほぼ単調に成長し、非均一予測器のトレーニングにおいてGDの暗黙の偏りを示す。
我々の分析は、よく知られたニューラルネットワークカーネルや平均場状態を超えて、あらゆる幅のネットワークに適用できる。
論文 参考訳(メタデータ) (2024-06-12T21:33:22Z) - A Tale of Two Circuits: Grokking as Competition of Sparse and Dense
Subnetworks [1.5297569497776375]
スパースパリティタスクでグラッキングを行うネットワークの内部構造について検討する。
グラッキング相転移はモデル予測に支配的なスパースサブネットワークの出現に対応する。
論文 参考訳(メタデータ) (2023-03-21T14:17:29Z) - Convergence Guarantees of Overparametrized Wide Deep Inverse Prior [1.5362025549031046]
逆優先法(Inverse Priors)は、ランダムな入力をフォワードモデルの下で画像が観察に一致するオブジェクトに変換する、教師なしのアプローチである。
本研究では, 連続時間勾配勾配勾配からトレーニングしたネットワークが, 高確率で指数関数的に高速に収束するオーバーパラメトリゼーション境界を提供する。
この研究は、過度にパラメータ化されたDIPネットワークの理論的理解への第一歩であり、より広い範囲で、逆問題設定におけるニューラルネットワークの理論的理解に関与している。
論文 参考訳(メタデータ) (2023-03-20T16:49:40Z) - Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-03-12T03:55:38Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z) - Early Stopping in Deep Networks: Double Descent and How to Eliminate it [30.61588337557343]
ネットワークの異なる部分が異なるエポックで学習されるため、エポックワイズな二重降下が発生することを示す。
本研究では,2つの標準畳み込みネットワークを実証的に検討し,異なる階層の段差調整によるエポックな二重降下の除去が早期停止性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T13:43:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Binary Neural Networks: A Survey [126.67799882857656]
バイナリニューラルネットワークは、リソース制限されたデバイスにディープモデルをデプロイするための有望なテクニックとして機能する。
バイナライゼーションは必然的に深刻な情報損失を引き起こし、さらに悪いことに、その不連続性はディープネットワークの最適化に困難をもたらす。
本稿では,2項化を直接実施するネイティブソリューションと,量子化誤差の最小化,ネットワーク損失関数の改善,勾配誤差の低減といった手法を用いて,これらのアルゴリズムを探索する。
論文 参考訳(メタデータ) (2020-03-31T16:47:20Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。