論文の概要: Optimization-Induced Dynamics of Lipschitz Continuity in Neural Networks
- arxiv url: http://arxiv.org/abs/2506.18588v1
- Date: Mon, 23 Jun 2025 12:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.980458
- Title: Optimization-Induced Dynamics of Lipschitz Continuity in Neural Networks
- Title(参考訳): ニューラルネットワークにおけるリプシッツ連続性の最適化誘起ダイナミクス
- Authors: Róisín Luo, James McDermott, Christian Gagné, Qiang Sun, Colm O'Riordan,
- Abstract要約: リプシッツ連続性は、小さな入力摂動に対するニューラルネットワークの最悪の感度を特徴づける。
勾配降下訓練におけるリプシッツ連続性の時間的進化をモデル化するための厳密な枠組みを提案する。
- 参考スコア(独自算出の注目度): 7.486235601021366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lipschitz continuity characterizes the worst-case sensitivity of neural networks to small input perturbations; yet its dynamics (i.e. temporal evolution) during training remains under-explored. We present a rigorous mathematical framework to model the temporal evolution of Lipschitz continuity during training with stochastic gradient descent (SGD). This framework leverages a system of stochastic differential equations (SDEs) to capture both deterministic and stochastic forces. Our theoretical analysis identifies three principal factors driving the evolution: (i) the projection of gradient flows, induced by the optimization dynamics, onto the operator-norm Jacobian of parameter matrices; (ii) the projection of gradient noise, arising from the randomness in mini-batch sampling, onto the operator-norm Jacobian; and (iii) the projection of the gradient noise onto the operator-norm Hessian of parameter matrices. Furthermore, our theoretical framework sheds light on such as how noisy supervision, parameter initialization, batch size, and mini-batch sampling trajectories, among other factors, shape the evolution of the Lipschitz continuity of neural networks. Our experimental results demonstrate strong agreement between the theoretical implications and the observed behaviors.
- Abstract(参考訳): リプシッツの連続性は、ニューラルネットワークの小さな入力摂動に対する最悪の感度を特徴づけるが、トレーニング中の力学(時間進化)は未解明のままである。
本稿では,確率勾配降下 (SGD) によるトレーニングにおいて,リプシッツ連続性の時間的進化をモデル化するための厳密な数学的枠組みを提案する。
この枠組みは確率微分方程式(SDE)の系を利用して決定論的力と確率的力の両方を捉える。
私たちの理論的分析は、進化を導く3つの主要な要因を特定します。
i) パラメータ行列の作用素ノルムヤコビアンへの最適化力学によって誘導される勾配流れの射影
(二)ミニバッチサンプリングにおけるランダム性から生じる勾配雑音の作用素ノルムヤコビアンへの投影、及び
三 パラメータ行列の作用素ノルムヘッセンへの勾配雑音の投影。
さらに、ニューラルネットワークのリプシッツ連続性の進化を形作る要因として、ノイズ管理、パラメータ初期化、バッチサイズ、ミニバッチサンプリングトラジェクトリなどの理論フレームワークが注目されている。
実験の結果, 理論的意味と観察行動との間には強い一致が認められた。
関連論文リスト
- A Riemannian Optimization Perspective of the Gauss-Newton Method for Feedforward Neural Networks [3.48097307252416]
我々は,スムーズな活性化関数を持つニューラルネットワークを学習するためのガウスニュートン力学の収束性を分析する。
適切な減衰スケジュールが選択されたレバンス・マルカルト力学は、潜在的に条件の悪いニューラル・タンジェント・カーネル行列にも拘わらず、高速収束率が得られることを示す。
論文 参考訳(メタデータ) (2024-12-18T16:51:47Z) - Learning Discretized Neural Networks under Ricci Flow [48.47315844022283]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Lipschitz Recurrent Neural Networks [100.72827570987992]
我々のリプシッツ再帰ユニットは、他の連続時間RNNと比較して、入力やパラメータの摂動に対してより堅牢であることを示す。
実験により,Lipschitz RNNは,ベンチマークタスクにおいて,既存のリカレントユニットよりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-06-22T08:44:52Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。