論文の概要: Inherent Noise in Gradient Based Methods
- arxiv url: http://arxiv.org/abs/2005.12743v1
- Date: Tue, 26 May 2020 14:12:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:28:59.359239
- Title: Inherent Noise in Gradient Based Methods
- Title(参考訳): 勾配法における固有雑音
- Authors: Arushi Gupta
- Abstract要約: 騒音と摂動に対するロバスト性への影響は一般化と関係している。
このノイズは重みの摂動に敏感なモデルにペナルティを与える。
ペナルティは、現在更新に使用中のバッチに対して最も顕著であり、より大きなモデルでは高くなっています。
- 参考スコア(独自算出の注目度): 3.0712335337791288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has examined the ability of larger capacity neural networks to
generalize better than smaller ones, even without explicit regularizers, by
analyzing gradient based algorithms such as GD and SGD. The presence of noise
and its effect on robustness to parameter perturbations has been linked to
generalization. We examine a property of GD and SGD, namely that instead of
iterating through all scalar weights in the network and updating them one by
one, GD (and SGD) updates all the parameters at the same time. As a result,
each parameter $w^i$ calculates its partial derivative at the stale parameter
$\mathbf{w_t}$, but then suffers loss $\hat{L}(\mathbf{w_{t+1}})$. We show that
this causes noise to be introduced into the optimization. We find that this
noise penalizes models that are sensitive to perturbations in the weights. We
find that penalties are most pronounced for batches that are currently being
used to update, and are higher for larger models.
- Abstract(参考訳): これまでの研究では、gdやsgdなどの勾配に基づくアルゴリズムを分析して、より小さなニューラルネットワークよりも一般化する能力について検討してきた。
雑音の存在とパラメータ摂動に対するロバスト性への影響は一般化に関連している。
GDとSGDの特性、すなわちネットワーク内の全てのスカラー重みを反復して更新する代わりに、GD(およびSGD)は同時に全てのパラメータを更新する。
その結果、各パラメータ $w^i$ はその部分微分をスタイルパラメータ $\mathbf{w_t}$ で計算するが、損失 $\hat{l}(\mathbf{w_{t+1}})$ となる。
これにより、最適化にノイズを導入できることが示される。
このノイズは重量の摂動に敏感なモデルをペナル化する。
ペナルティは、現在更新に使用中のバッチに対して最も顕著であり、より大きなモデルでは高くなっています。
関連論文リスト
- Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - Some Constructions of Private, Efficient, and Optimal $K$-Norm and Elliptic Gaussian Noise [54.34628844260993]
微分プライベートな計算は、しばしば$d$次元統計学の感度に束縛されて始まる。
純粋な微分プライバシーのために、$K$-normメカニズムは統計学の感度空間に合わせた規範を用いてこのアプローチを改善することができる。
本稿では,総和,数,投票の単純な統計量について両問題を解く。
論文 参考訳(メタデータ) (2023-09-27T17:09:36Z) - Noise Regularizes Over-parameterized Rank One Matrix Recovery, Provably [42.427869499882206]
階数 1 の行列 $Y*$ by $XXtop$ をパラメータ化します。
次に,2乗損失関数を用いたランダムな摂動勾配降下法により得られた推定値の平均2乗誤差が$O(sigma2/d)$であることを示す。
対照的に、ランダムな摂動を伴わない勾配降下から得られる推定器は、平均2乗誤差が$O(sigma2)$となる。
論文 参考訳(メタデータ) (2022-02-07T21:53:51Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Improved generalization by noise enhancement [5.33024001730262]
勾配降下(SGD)の騒音は一般化と密接に関連している。
騒音強調による目標達成手法」を提案する。
その結果,騒音強調による大規模バッチトレーニングは,小バッチトレーニングに比べ,より汎用性が高いことがわかった。
論文 参考訳(メタデータ) (2020-09-28T06:29:23Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。