論文の概要: Learning in PINNs: Phase transition, total diffusion, and generalization
- arxiv url: http://arxiv.org/abs/2403.18494v1
- Date: Wed, 27 Mar 2024 12:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:08:03.952057
- Title: Learning in PINNs: Phase transition, total diffusion, and generalization
- Title(参考訳): PINNにおける学習:相転移、全拡散、一般化
- Authors: Sokratis J. Anagnostopoulos, Juan Diego Toscano, Nikolaos Stergiopulos, George Em Karniadakis,
- Abstract要約: 勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討する。
全拡散と呼ばれる第3相を同定する」。
本稿では,情報誘起圧縮現象を考察し,全拡散相におけるアクティベーションの顕著な圧縮を示唆する。
- 参考スコア(独自算出の注目度): 1.8802875123957965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the learning dynamics of fully-connected neural networks through the lens of gradient signal-to-noise ratio (SNR), examining the behavior of first-order optimizers like Adam in non-convex objectives. By interpreting the drift/diffusion phases in the information bottleneck theory, focusing on gradient homogeneity, we identify a third phase termed ``total diffusion", characterized by equilibrium in the learning rates and homogeneous gradients. This phase is marked by an abrupt SNR increase, uniform residuals across the sample space and the most rapid training convergence. We propose a residual-based re-weighting scheme to accelerate this diffusion in quadratic loss functions, enhancing generalization. We also explore the information compression phenomenon, pinpointing a significant saturation-induced compression of activations at the total diffusion phase, with deeper layers experiencing negligible information loss. Supported by experimental data on physics-informed neural networks (PINNs), which underscore the importance of gradient homogeneity due to their PDE-based sample inter-dependence, our findings suggest that recognizing phase transitions could refine ML optimization strategies for improved generalization.
- Abstract(参考訳): 本研究では、勾配信号-雑音比(SNR)のレンズを用いた完全連結ニューラルネットワークの学習力学について検討し、非凸目的におけるAdamのような一階最適化器の挙動について検討した。
情報ボトルネック理論のドリフト/拡散相を解釈し、勾配の均一性に着目し、学習速度の平衡と均質勾配を特徴とする「高度拡散」と呼ばれる第3相を特定する。
この位相は、急激なSNR増加、サンプル空間の均一な残留、そして最も速い訓練収束によって特徴づけられる。
本稿では,この拡散を2次損失関数で促進し,一般化を促進させる残差に基づく再重み付け手法を提案する。
また,情報圧縮現象についても検討し,全拡散相におけるアクティベーションの顕著な飽和による圧縮を指摘し,より深い層が無視可能な情報損失を経験することを示した。
PDEに基づくサンプル相互依存性による勾配均一性の重要性を裏付ける物理インフォームドニューラルネットワーク(PINN)の実験データによって支持された結果,相転移の認識が一般化を改善するためのML最適化戦略を改良する可能性が示唆された。
関連論文リスト
- Residual-based attention and connection to information bottleneck theory
in PINNs [0.393259574660092]
近年,物理インフォームドニューラルネットワーク(PINN)への関心が高まっている。
本稿では,動的システムや静的システムの収束を加速する,PINNの効率的な勾配なし重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T16:29:55Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Stochastic Gradient Descent-Induced Drift of Representation in a
Two-Layer Neural Network [0.0]
脳や人工ネットワークで観察されているにもかかわらず、ドリフトのメカニズムとその意味は完全には理解されていない。
ピリフォーム大脳皮質における刺激依存性のドリフトに関する最近の実験結果に触発されて、我々はこの現象を2層線形フィードフォワードネットワークで研究するために理論とシミュレーションを用いた。
論文 参考訳(メタデータ) (2023-02-06T04:56:05Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Influence Estimation and Maximization via Neural Mean-Field Dynamics [60.91291234832546]
本稿では,ニューラル平均場(NMF)ダイナミクスを用いた新しい学習フレームワークを提案する。
我々のフレームワークは拡散ネットワークの構造とノード感染確率の進化を同時に学習することができる。
論文 参考訳(メタデータ) (2021-06-03T00:02:05Z) - Phases of learning dynamics in artificial neural networks: with or
without mislabeled data [3.3576886095389296]
ニューラルネットワークにおける学習を駆動する勾配降下のダイナミクスについて研究する。
ラベルを間違えたデータがないと、SGD学習のダイナミクスは高速な学習段階から遅い探索段階へと移行する。
2つのデータセットの個々のサンプル損失は、フェーズIIで最も分離されている。
論文 参考訳(メタデータ) (2021-01-16T19:44:27Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。