Fugu-MT 論文翻訳(概要): Imitating Deep Learning Dynamics via Locally Elastic Stochastic Differential Equations

論文の概要: Imitating Deep Learning Dynamics via Locally Elastic Stochastic Differential Equations

arxiv url: http://arxiv.org/abs/2110.05960v1
Date: Mon, 11 Oct 2021 17:17:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-13 12:14:58.270203
Title: Imitating Deep Learning Dynamics via Locally Elastic Stochastic Differential Equations
Title（参考訳）: 局所弾性確率微分方程式によるディープラーニングダイナミクスの模倣
Authors: Jiayao Zhang, Hua Wang, Weijie J. Su
Abstract要約: 本研究では, 深層学習における特徴の進化を, それぞれが学習サンプルに対応する微分方程式(SDE)を用いて研究する。我々の結果は、ニューラルネットワークのトレーニング力学における局所弾性の決定的な役割に光を当てた。
参考スコア（独自算出の注目度）: 20.066631203802302
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding the training dynamics of deep learning models is perhaps a necessary step toward demystifying the effectiveness of these models. In particular, how do data from different classes gradually become separable in their feature spaces when training neural networks using stochastic gradient descent? In this study, we model the evolution of features during deep learning training using a set of stochastic differential equations (SDEs) that each corresponds to a training sample. As a crucial ingredient in our modeling strategy, each SDE contains a drift term that reflects the impact of backpropagation at an input on the features of all samples. Our main finding uncovers a sharp phase transition phenomenon regarding the {intra-class impact: if the SDEs are locally elastic in the sense that the impact is more significant on samples from the same class as the input, the features of the training data become linearly separable, meaning vanishing training loss; otherwise, the features are not separable, regardless of how long the training time is. Moreover, in the presence of local elasticity, an analysis of our SDEs shows that the emergence of a simple geometric structure called the neural collapse of the features. Taken together, our results shed light on the decisive role of local elasticity in the training dynamics of neural networks. We corroborate our theoretical analysis with experiments on a synthesized dataset of geometric shapes and CIFAR-10.
Abstract（参考訳）: 深層学習モデルのトレーニングダイナミクスを理解することは、おそらくこれらのモデルの有効性を確定するために必要なステップである。特に、確率勾配勾配を用いたニューラルネットワークのトレーニングにおいて、異なるクラスのデータが特徴空間で段階的に分離可能であるか? 本研究では,学習サンプルに対応する確率微分方程式(sdes)の集合を用いて,ディープラーニング学習中の特徴の進化をモデル化する。モデリング戦略における重要な要素として、各SDEは、全てのサンプルの特徴に対する入力におけるバックプロパゲーションの影響を反映したドリフト項を含む。 sdes が局所的な弾性を持つ場合、入力と同じクラスからのサンプルに対して影響がより大きいという意味で、トレーニングデータの特徴が線形に分離可能となり、トレーニング損失が消失する。さらに、局所弾性の存在下では、SDEの分析により、特徴の神経崩壊と呼ばれる単純な幾何学的構造の出現が示されている。その結果,ニューラルネットワークのトレーニングダイナミクスにおいて局所弾性が決定的に果たす役割に光を当てた。幾何形状と cifar-10 の合成データセットについて実験を行い, 理論解析を行った。

関連論文リスト

Fractional Spike Differential Equations Neural Network with Efficient Adjoint Parameters Training [63.3991315762955]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューロンからインスピレーションを得て、脳に似た計算の現実的なモデルを作成する。既存のほとんどのSNNは、マルコフ特性を持つ一階常微分方程式(ODE)によってモデル化された、神経細胞膜電圧ダイナミクスの単一時間定数を仮定している。本研究では, 膜電圧およびスパイク列車の長期依存性を分数次力学により捉えるフラクタルSPIKE微分方程式ニューラルネットワーク (fspikeDE) を提案する。
論文参考訳（メタデータ） (2025-07-22T18:20:56Z)
The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
Training Dynamics of In-Context Learning in Linear Attention [6.663503238373593]
In-context linear regression を訓練したマルチヘッド線形自己アテンションの勾配勾配ダイナミクスについて検討した。我々は、線形注意の降下訓練中に、文脈内学習能力がどのように進化するかを特徴付ける。
論文参考訳（メタデータ） (2025-01-27T18:03:00Z)
TRENDy: Temporal Regression of Effective Nonlinear Dynamics [4.264200809234798]
TRENDyは、低時間ダイナミクスを学ぶための方程式のないアプローチである。我々はTRENDyをトレーニングし、物理科学と生命科学のあらゆる分野から、合成データと実データの効果的なダイナミクスを予測する。 TRENDyの予測有効状態は、時間とともに変化を正確に予測するだけでなく、異なるパターンの特徴を識別する。
論文参考訳（メタデータ） (2024-12-04T17:36:47Z)
Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。 ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文参考訳（メタデータ） (2024-06-11T03:07:41Z)
Automatic Differentiation is Essential in Training Neural Networks for Solving Differential Equations [7.890817997914349]
ニューラルネットワークに基づくアプローチは、最近、科学と工学における偏微分方程式(PDE)の解法において大きな可能性を示している。 PDEのためのニューラルネットワーク手法の利点の1つは、その自動微分(AD)にある。本稿では、ニューラルネットワークのトレーニングにおけるADの利点を定量的に示す。
論文参考訳（メタデータ） (2024-05-23T02:01:05Z)
Tipping Points of Evolving Epidemiological Networks: Machine Learning-Assisted, Data-Driven Effective Modeling [0.0]
適応型感受性感染症(SIS)疫学ネットワークのチップポイント集団動態を,データ駆動型機械学習支援方式で検討した。複素実効微分方程式(eSDE)を物理的に有意な粗い平均場変数で同定する。本研究では, 頻繁な現象の統計を, 繰り返しブルート力シミュレーションと, 確立された数学的・計算ツールを用いて研究する。
論文参考訳（メタデータ） (2023-11-01T19:33:03Z)
Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文参考訳（メタデータ） (2023-08-18T13:20:08Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
Capturing Actionable Dynamics with Structured Latent Ordinary Differential Equations [68.62843292346813]
本稿では,その潜在表現内でのシステム入力の変動をキャプチャする構造付き潜在ODEモデルを提案する。静的変数仕様に基づいて,本モデルではシステムへの入力毎の変動要因を学習し,潜在空間におけるシステム入力の影響を分離する。
論文参考訳（メタデータ） (2022-02-25T20:00:56Z)
Stochastic Physics-Informed Neural Networks (SPINN): A Moment-Matching Framework for Learning Hidden Physics within Stochastic Differential Equations [4.482886054198202]
我々は、微分方程式(SDE)内の隠れ物理学を表す方程式を学習するためのディープニューラルネットワークのトレーニングフレームワークを提案する。提案するフレームワークは、最先端のディープラーニング戦略とともに、不確実性伝播とモーメントマッチング技術に依存している。
論文参考訳（メタデータ） (2021-09-03T16:59:12Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Supervised Learning in the Presence of Concept Drift: A modelling framework [5.22609266390809]
非定常環境における教師あり学習の研究のためのモデリングフレームワークを提案する。学習システムの例として、分類のためのプロトタイプベースの学習ベクトル量子化(LVQ)と回帰タスクのための浅層ニューラルネットワークをモデル化する。
論文参考訳（メタデータ） (2020-05-21T09:13:58Z)
Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文参考訳（メタデータ） (2020-02-22T22:12:56Z)
Learning Stochastic Behaviour from Aggregate Data [52.012857267317784]
集約データから非線形ダイナミクスを学習することは、各個人の完全な軌道が利用できないため、難しい問題である。本稿では,Fokker Planck Equation (FPE) の弱い形式を用いて,サンプル形式のデータの密度変化を記述する手法を提案する。このようなサンプルベースのフレームワークでは、偏微分方程式(PDE)FPEを明示的に解くことなく、集約データから非線形ダイナミクスを学習することができる。
論文参考訳（メタデータ） (2020-02-10T03:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。