論文の概要: Singular-limit analysis of gradient descent with noise injection
- arxiv url: http://arxiv.org/abs/2404.12293v1
- Date: Thu, 18 Apr 2024 16:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:02:22.876330
- Title: Singular-limit analysis of gradient descent with noise injection
- Title(参考訳): ノイズ注入による勾配降下の特異限界解析
- Authors: Anna Shalova, André Schlichting, Mark Peletier,
- Abstract要約: 雑音勾配降下系の小さなステップサイズの極限における極限ダイナミクスについて検討する。
ノイズの構造が限界過程の形状だけでなく、進化が起こる時間スケールにも影響を及ぼすことを示す。
結果はニューラルネットワークのトレーニングにインスパイアされているが、この定理は非自明なゼロロス集合を持つ損失のノイズ勾配勾配に適用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the limiting dynamics of a large class of noisy gradient descent systems in the overparameterized regime. In this regime the set of global minimizers of the loss is large, and when initialized in a neighbourhood of this zero-loss set a noisy gradient descent algorithm slowly evolves along this set. In some cases this slow evolution has been related to better generalisation properties. We characterize this evolution for the broad class of noisy gradient descent systems in the limit of small step size. Our results show that the structure of the noise affects not just the form of the limiting process, but also the time scale at which the evolution takes place. We apply the theory to Dropout, label noise and classical SGD (minibatching) noise, and show that these evolve on different two time scales. Classical SGD even yields a trivial evolution on both time scales, implying that additional noise is required for regularization. The results are inspired by the training of neural networks, but the theorems apply to noisy gradient descent of any loss that has a non-trivial zero-loss set.
- Abstract(参考訳): 過パラメータ化状態における大きなノイズ勾配降下系の極限ダイナミクスについて検討する。
この体制では、損失のグローバルな最小化器のセットが大きくなり、このゼロロス集合の近傍で初期化されると、ノイズ勾配降下アルゴリズムがこのセットに沿って徐々に進化する。
場合によっては、このゆっくりとした進化はより良い一般化の性質に関係している。
我々は、この進化を、小さなステップサイズに制限された幅広いノイズ勾配勾配系に対して特徴づける。
以上の結果から, 騒音の構造は, 限界過程の形状だけでなく, 進化が生じる時間スケールにも影響を及ぼすことが明らかとなった。
この理論をDropout, label noise, classic SGD (minibatching) noiseに適用し, 異なる2つの時間スケールで進化することを示す。
古典的なSGDは、両方の時間スケールにおいて自明な進化をもたらし、正規化には追加のノイズが必要であることを示唆している。
結果はニューラルネットワークのトレーニングにインスパイアされているが、この定理は非自明なゼロロス集合を持つ損失のノイズ勾配勾配に適用される。
関連論文リスト
- Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Learning time-scales in two-layers neural networks [11.878594839685471]
高次元の広層ニューラルネットワークの勾配流れのダイナミクスについて検討する。
新たな厳密な結果に基づいて,この環境下での学習力学のシナリオを提案する。
論文 参考訳(メタデータ) (2023-02-28T19:52:26Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - A Theoretical Analysis of the Learning Dynamics under Class Imbalance [0.10231119246773925]
本研究では,少数クラスと多数クラスの学習曲線が,勾配に基づく学習において,準最適軌跡に従うことを示す。
この減速は不均衡比に関連しており、異なるクラスの最適化の競合に遡ることができる。
GDはクラスごとの損失を減らすことは保証されていないが、勾配のクラスごとの正規化を行うことでこの問題に対処できる。
論文 参考訳(メタデータ) (2022-07-01T12:54:38Z) - Explicit Regularization in Overparametrized Models via Noise Injection [14.492434617004932]
簡単な有限次元モデルに対して、小さな摂動が明示的な正則化をもたらすことを示す。
実験により,小摂動がバニラ勾配降下訓練よりも一般化性能の向上につながることが示された。
論文 参考訳(メタデータ) (2022-06-09T17:00:23Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z) - Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for
Imbalanced Learning [97.81549071978789]
勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。
大規模分類とセグメンテーションデータセットの実験を行い、ARB-Lossは最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-19T08:23:23Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z) - Implicit Bias in Deep Linear Classification: Initialization Scale vs
Training Accuracy [71.25689267025244]
移行がスケールとトレーニング損失の最小化の関係によってどのように制御されるかを示す。
以上の結果から,勾配降下の限界挙動は,ばかげた訓練精度でのみ引き起こされることが示唆された。
論文 参考訳(メタデータ) (2020-07-13T23:49:53Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。