論文の概要: Improved generalization by noise enhancement
- arxiv url: http://arxiv.org/abs/2009.13094v1
- Date: Mon, 28 Sep 2020 06:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:32:39.761046
- Title: Improved generalization by noise enhancement
- Title(参考訳): ノイズエンハンスメントによる一般化の改善
- Authors: Takashi Mori, Masahito Ueda
- Abstract要約: 勾配降下(SGD)の騒音は一般化と密接に関連している。
騒音強調による目標達成手法」を提案する。
その結果,騒音強調による大規模バッチトレーニングは,小バッチトレーニングに比べ,より汎用性が高いことがわかった。
- 参考スコア(独自算出の注目度): 5.33024001730262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated that noise in stochastic gradient descent
(SGD) is closely related to generalization: A larger SGD noise, if not too
large, results in better generalization. Since the covariance of the SGD noise
is proportional to $\eta^2/B$, where $\eta$ is the learning rate and $B$ is the
minibatch size of SGD, the SGD noise has so far been controlled by changing
$\eta$ and/or $B$. However, too large $\eta$ results in instability in the
training dynamics and a small $B$ prevents scalable parallel computation. It is
thus desirable to develop a method of controlling the SGD noise without
changing $\eta$ and $B$. In this paper, we propose a method that achieves this
goal using ``noise enhancement'', which is easily implemented in practice. We
expound the underlying theoretical idea and demonstrate that the noise
enhancement actually improves generalization for real datasets. It turns out
that large-batch training with the noise enhancement even shows better
generalization compared with small-batch training.
- Abstract(参考訳): 近年の研究では、確率的勾配降下(sgd)におけるノイズは一般化と密接に関連していることが示されている。
SGDノイズの共分散は$\eta^2/B$に比例するので、$\eta$は学習率、$B$はSGDのミニバッチサイズである。
しかし、大きすぎる$\eta$はトレーニングダイナミクスの不安定性をもたらし、小さな$B$はスケーラブルな並列計算を妨げます。
したがって、$\eta$と$B$を変更することなくSGDノイズを制御する方法を開発することが望ましい。
本稿では,実際に容易に実装できる ‘noise enhancement'' を用いて,この目標を達成する手法を提案する。
基礎となる理論概念を概説し、ノイズ強調が実際のデータセットの一般化を実際に改善することを示す。
ノイズエンハンスメントによる大規模バッチトレーニングは,小規模バッチトレーニングよりも一般化度が向上していることが分かりました。
関連論文リスト
- Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Dissecting the Effects of SGD Noise in Distinct Regimes of Deep Learning [3.0222726254970174]
勾配降下のノイズはディープニューラルネットワークの一般化に影響を及ぼす。
我々は,SGDノイズは訓練体制によって有害か,あるいは有用かを示す。
論文 参考訳(メタデータ) (2023-01-31T15:22:24Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - On Minibatch Noise: Discrete-Time SGD, Overparametrization, and Bayes [2.6763498831034043]
ミニバッチサンプリングによる勾配降下(SGD)の騒音は未だよく分かっていない。
ミニバッチサンプリングが必ずしも変動を引き起こすとは限らないという観測に感銘を受けて,ミニバッチノイズを発生させる条件を見出した。
論文 参考訳(メタデータ) (2021-02-10T10:38:55Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z) - Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning [165.47118387176607]
ADAMライクな適応勾配アルゴリズムが、学習速度が速いにもかかわらず、SGDよりも悪い一般化性能に苦しむ理由は不明である。
具体的には,これらのアルゴリズムの勾配雑音の重みを観測する。
論文 参考訳(メタデータ) (2020-10-12T12:00:26Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Inherent Noise in Gradient Based Methods [3.0712335337791288]
騒音と摂動に対するロバスト性への影響は一般化と関係している。
このノイズは重みの摂動に敏感なモデルにペナルティを与える。
ペナルティは、現在更新に使用中のバッチに対して最も顕著であり、より大きなモデルでは高くなっています。
論文 参考訳(メタデータ) (2020-05-26T14:12:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。