論文の概要: Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations
- arxiv url: http://arxiv.org/abs/2110.05960v1
- Date: Mon, 11 Oct 2021 17:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 12:14:58.270203
- Title: Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations
- Title(参考訳): 局所弾性確率微分方程式によるディープラーニングダイナミクスの模倣
- Authors: Jiayao Zhang, Hua Wang, Weijie J. Su
- Abstract要約: 本研究では, 深層学習における特徴の進化を, それぞれが学習サンプルに対応する微分方程式(SDE)を用いて研究する。
我々の結果は、ニューラルネットワークのトレーニング力学における局所弾性の決定的な役割に光を当てた。
- 参考スコア(独自算出の注目度): 20.066631203802302
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the training dynamics of deep learning models is perhaps a
necessary step toward demystifying the effectiveness of these models. In
particular, how do data from different classes gradually become separable in
their feature spaces when training neural networks using stochastic gradient
descent? In this study, we model the evolution of features during deep learning
training using a set of stochastic differential equations (SDEs) that each
corresponds to a training sample. As a crucial ingredient in our modeling
strategy, each SDE contains a drift term that reflects the impact of
backpropagation at an input on the features of all samples. Our main finding
uncovers a sharp phase transition phenomenon regarding the {intra-class impact:
if the SDEs are locally elastic in the sense that the impact is more
significant on samples from the same class as the input, the features of the
training data become linearly separable, meaning vanishing training loss;
otherwise, the features are not separable, regardless of how long the training
time is. Moreover, in the presence of local elasticity, an analysis of our SDEs
shows that the emergence of a simple geometric structure called the neural
collapse of the features. Taken together, our results shed light on the
decisive role of local elasticity in the training dynamics of neural networks.
We corroborate our theoretical analysis with experiments on a synthesized
dataset of geometric shapes and CIFAR-10.
- Abstract(参考訳): 深層学習モデルのトレーニングダイナミクスを理解することは、おそらくこれらのモデルの有効性を確定するために必要なステップである。
特に、確率勾配勾配を用いたニューラルネットワークのトレーニングにおいて、異なるクラスのデータが特徴空間で段階的に分離可能であるか?
本研究では,学習サンプルに対応する確率微分方程式(sdes)の集合を用いて,ディープラーニング学習中の特徴の進化をモデル化する。
モデリング戦略における重要な要素として、各SDEは、全てのサンプルの特徴に対する入力におけるバックプロパゲーションの影響を反映したドリフト項を含む。
sdes が局所的な弾性を持つ場合、入力と同じクラスからのサンプルに対して影響がより大きいという意味で、トレーニングデータの特徴が線形に分離可能となり、トレーニング損失が消失する。
さらに、局所弾性の存在下では、SDEの分析により、特徴の神経崩壊と呼ばれる単純な幾何学的構造の出現が示されている。
その結果,ニューラルネットワークのトレーニングダイナミクスにおいて局所弾性が決定的に果たす役割に光を当てた。
幾何形状と cifar-10 の合成データセットについて実験を行い, 理論解析を行った。
関連論文リスト
- Tipping Points of Evolving Epidemiological Networks: Machine
Learning-Assisted, Data-Driven Effective Modeling [0.0]
適応型感受性感染症(SIS)疫学ネットワークのチップポイント集団動態を,データ駆動型機械学習支援方式で検討した。
複素実効微分方程式(eSDE)を物理的に有意な粗い平均場変数で同定する。
本研究では, 頻繁な現象の統計を, 繰り返しブルート力シミュレーションと, 確立された数学的・計算ツールを用いて研究する。
論文 参考訳(メタデータ) (2023-11-01T19:33:03Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Contrastive-Signal-Dependent Plasticity: Forward-Forward Learning of
Spiking Neural Systems [73.18020682258606]
我々は、ニューロンの個々の層が並列に機能する、スパイキングニューロンユニットからなる神経模倣アーキテクチャを開発する。
コントラスト信号依存塑性(CSDP)と呼ばれるイベントベース前方学習の一般化を提案する。
いくつかのパターンデータセットに対する実験結果から,CSDPプロセスは分類と再構成の両方が可能な動的再帰スパイクネットワークのトレーニングに有効であることが示された。
論文 参考訳(メタデータ) (2023-03-30T02:40:28Z) - Capturing Actionable Dynamics with Structured Latent Ordinary
Differential Equations [68.62843292346813]
本稿では,その潜在表現内でのシステム入力の変動をキャプチャする構造付き潜在ODEモデルを提案する。
静的変数仕様に基づいて,本モデルではシステムへの入力毎の変動要因を学習し,潜在空間におけるシステム入力の影響を分離する。
論文 参考訳(メタデータ) (2022-02-25T20:00:56Z) - Stochastic Physics-Informed Neural Networks (SPINN): A Moment-Matching
Framework for Learning Hidden Physics within Stochastic Differential
Equations [4.482886054198202]
我々は、微分方程式(SDE)内の隠れ物理学を表す方程式を学習するためのディープニューラルネットワークのトレーニングフレームワークを提案する。
提案するフレームワークは、最先端のディープラーニング戦略とともに、不確実性伝播とモーメントマッチング技術に依存している。
論文 参考訳(メタデータ) (2021-09-03T16:59:12Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Phase space learning with neural networks [0.0]
本研究では、部分微分方程式(PDE)を解く投影型手法の非線形一般化としてのオートエンコーダニューラルネットワークを提案する。
提案したディープラーニングアーキテクチャは、中間再構成なしに非常に少ない潜在空間に完全に統合することでPDEのダイナミクスを生成でき、その後、潜在解を元の空間に復号することができる。
単一経路のサンプルデータから動的システムの位相空間のグローバルな特性を学習するために、適切に正規化されたニューラルネットワークの信頼性と、目に見えない分岐を予測する能力を示す。
論文 参考訳(メタデータ) (2020-06-22T20:28:07Z) - Supervised Learning in the Presence of Concept Drift: A modelling
framework [5.22609266390809]
非定常環境における教師あり学習の研究のためのモデリングフレームワークを提案する。
学習システムの例として、分類のためのプロトタイプベースの学習ベクトル量子化(LVQ)と回帰タスクのための浅層ニューラルネットワークをモデル化する。
論文 参考訳(メタデータ) (2020-05-21T09:13:58Z) - Learning Stochastic Behaviour from Aggregate Data [52.012857267317784]
集約データから非線形ダイナミクスを学習することは、各個人の完全な軌道が利用できないため、難しい問題である。
本稿では,Fokker Planck Equation (FPE) の弱い形式を用いて,サンプル形式のデータの密度変化を記述する手法を提案する。
このようなサンプルベースのフレームワークでは、偏微分方程式(PDE)FPEを明示的に解くことなく、集約データから非線形ダイナミクスを学習することができる。
論文 参考訳(メタデータ) (2020-02-10T03:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。