論文の概要: Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations
- arxiv url: http://arxiv.org/abs/2110.05960v1
- Date: Mon, 11 Oct 2021 17:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 12:14:58.270203
- Title: Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations
- Title(参考訳): 局所弾性確率微分方程式によるディープラーニングダイナミクスの模倣
- Authors: Jiayao Zhang, Hua Wang, Weijie J. Su
- Abstract要約: 本研究では, 深層学習における特徴の進化を, それぞれが学習サンプルに対応する微分方程式(SDE)を用いて研究する。
我々の結果は、ニューラルネットワークのトレーニング力学における局所弾性の決定的な役割に光を当てた。
- 参考スコア(独自算出の注目度): 20.066631203802302
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the training dynamics of deep learning models is perhaps a
necessary step toward demystifying the effectiveness of these models. In
particular, how do data from different classes gradually become separable in
their feature spaces when training neural networks using stochastic gradient
descent? In this study, we model the evolution of features during deep learning
training using a set of stochastic differential equations (SDEs) that each
corresponds to a training sample. As a crucial ingredient in our modeling
strategy, each SDE contains a drift term that reflects the impact of
backpropagation at an input on the features of all samples. Our main finding
uncovers a sharp phase transition phenomenon regarding the {intra-class impact:
if the SDEs are locally elastic in the sense that the impact is more
significant on samples from the same class as the input, the features of the
training data become linearly separable, meaning vanishing training loss;
otherwise, the features are not separable, regardless of how long the training
time is. Moreover, in the presence of local elasticity, an analysis of our SDEs
shows that the emergence of a simple geometric structure called the neural
collapse of the features. Taken together, our results shed light on the
decisive role of local elasticity in the training dynamics of neural networks.
We corroborate our theoretical analysis with experiments on a synthesized
dataset of geometric shapes and CIFAR-10.
- Abstract(参考訳): 深層学習モデルのトレーニングダイナミクスを理解することは、おそらくこれらのモデルの有効性を確定するために必要なステップである。
特に、確率勾配勾配を用いたニューラルネットワークのトレーニングにおいて、異なるクラスのデータが特徴空間で段階的に分離可能であるか?
本研究では,学習サンプルに対応する確率微分方程式(sdes)の集合を用いて,ディープラーニング学習中の特徴の進化をモデル化する。
モデリング戦略における重要な要素として、各SDEは、全てのサンプルの特徴に対する入力におけるバックプロパゲーションの影響を反映したドリフト項を含む。
sdes が局所的な弾性を持つ場合、入力と同じクラスからのサンプルに対して影響がより大きいという意味で、トレーニングデータの特徴が線形に分離可能となり、トレーニング損失が消失する。
さらに、局所弾性の存在下では、SDEの分析により、特徴の神経崩壊と呼ばれる単純な幾何学的構造の出現が示されている。
その結果,ニューラルネットワークのトレーニングダイナミクスにおいて局所弾性が決定的に果たす役割に光を当てた。
幾何形状と cifar-10 の合成データセットについて実験を行い, 理論解析を行った。
関連論文リスト
- Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する
L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文 参考訳(メタデータ) (2024-06-11T03:07:41Z) - Automatic Differentiation is Essential in Training Neural Networks for Solving Differential Equations [7.890817997914349]
ニューラルネットワークに基づくアプローチは、最近、科学と工学における偏微分方程式(PDE)の解法において大きな可能性を示している。
PDEのためのニューラルネットワーク手法の利点の1つは、その自動微分(AD)にある。
本稿では、ニューラルネットワークのトレーニングにおけるADの利点を定量的に示す。
論文 参考訳(メタデータ) (2024-05-23T02:01:05Z) - Tipping Points of Evolving Epidemiological Networks: Machine
Learning-Assisted, Data-Driven Effective Modeling [0.0]
適応型感受性感染症(SIS)疫学ネットワークのチップポイント集団動態を,データ駆動型機械学習支援方式で検討した。
複素実効微分方程式(eSDE)を物理的に有意な粗い平均場変数で同定する。
本研究では, 頻繁な現象の統計を, 繰り返しブルート力シミュレーションと, 確立された数学的・計算ツールを用いて研究する。
論文 参考訳(メタデータ) (2023-11-01T19:33:03Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Capturing Actionable Dynamics with Structured Latent Ordinary
Differential Equations [68.62843292346813]
本稿では,その潜在表現内でのシステム入力の変動をキャプチャする構造付き潜在ODEモデルを提案する。
静的変数仕様に基づいて,本モデルではシステムへの入力毎の変動要因を学習し,潜在空間におけるシステム入力の影響を分離する。
論文 参考訳(メタデータ) (2022-02-25T20:00:56Z) - Stochastic Physics-Informed Neural Networks (SPINN): A Moment-Matching
Framework for Learning Hidden Physics within Stochastic Differential
Equations [4.482886054198202]
我々は、微分方程式(SDE)内の隠れ物理学を表す方程式を学習するためのディープニューラルネットワークのトレーニングフレームワークを提案する。
提案するフレームワークは、最先端のディープラーニング戦略とともに、不確実性伝播とモーメントマッチング技術に依存している。
論文 参考訳(メタデータ) (2021-09-03T16:59:12Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Supervised Learning in the Presence of Concept Drift: A modelling
framework [5.22609266390809]
非定常環境における教師あり学習の研究のためのモデリングフレームワークを提案する。
学習システムの例として、分類のためのプロトタイプベースの学習ベクトル量子化(LVQ)と回帰タスクのための浅層ニューラルネットワークをモデル化する。
論文 参考訳(メタデータ) (2020-05-21T09:13:58Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z) - Learning Stochastic Behaviour from Aggregate Data [52.012857267317784]
集約データから非線形ダイナミクスを学習することは、各個人の完全な軌道が利用できないため、難しい問題である。
本稿では,Fokker Planck Equation (FPE) の弱い形式を用いて,サンプル形式のデータの密度変化を記述する手法を提案する。
このようなサンプルベースのフレームワークでは、偏微分方程式(PDE)FPEを明示的に解くことなく、集約データから非線形ダイナミクスを学習することができる。
論文 参考訳(メタデータ) (2020-02-10T03:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。