論文の概要: A Study of Gradient Variance in Deep Learning
- arxiv url: http://arxiv.org/abs/2007.04532v1
- Date: Thu, 9 Jul 2020 03:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:23:11.599099
- Title: A Study of Gradient Variance in Deep Learning
- Title(参考訳): 深層学習における勾配変動の検討
- Authors: Fartash Faghri, David Duvenaud, David J. Fleet, Jimmy Ba
- Abstract要約: 階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
- 参考スコア(独自算出の注目度): 56.437755740715396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impact of gradient noise on training deep models is widely acknowledged
but not well understood. In this context, we study the distribution of
gradients during training. We introduce a method, Gradient Clustering, to
minimize the variance of average mini-batch gradient with stratified sampling.
We prove that the variance of average mini-batch gradient is minimized if the
elements are sampled from a weighted clustering in the gradient space. We
measure the gradient variance on common deep learning benchmarks and observe
that, contrary to common assumptions, gradient variance increases during
training, and smaller learning rates coincide with higher variance. In
addition, we introduce normalized gradient variance as a statistic that better
correlates with the speed of convergence compared to gradient variance.
- Abstract(参考訳): 深層モデルの訓練における勾配雑音の影響は広く認識されているが,よく理解されていない。
この文脈では,トレーニング中の勾配分布について検討する。
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
勾配空間における重み付きクラスタリングから要素をサンプリングした場合, 平均ミニバッチ勾配の分散が最小となることを示す。
一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加し、より小さい学習率がより高い分散と一致することを観察する。
さらに,正規化勾配分散を,勾配分散と比較して収束速度によく相関する統計として導入する。
関連論文リスト
- Pathwise Gradient Variance Reduction with Control Variates in Variational Inference [2.1638817206926855]
ベイズ深層学習における変分推論は、閉形式解を持たない予想の勾配を計算することを伴うことが多い。
これらの場合、パスワイズとスコア関数勾配推定器が最も一般的なアプローチである。
最近の研究は、経路勾配推定器でさえ分散還元の恩恵を受けることを示唆している。
論文 参考訳(メタデータ) (2024-10-08T07:28:46Z) - Preferential Subsampling for Stochastic Gradient Langevin Dynamics [3.158346511479111]
勾配MCMCは、データの小さな一様重み付きサブサンプルを持つ対数姿勢の勾配をバイアスなく見積もっている。
得られた勾配推定器は、高いばらつきおよび衝撃サンプリング性能を示すことができる。
このような手法は,使用中の平均サブサンプルサイズを大幅に削減しつつ,同じレベルの精度を維持することができることを示す。
論文 参考訳(メタデータ) (2022-10-28T14:56:18Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - Adaptive Perturbation-Based Gradient Estimation for Discrete Latent
Variable Models [28.011868604717726]
複素離散分布に対する適応勾配推定器であるAdaptive IMLEを提案する。
我々の推定器は、他の勾配推定器よりも桁違いに少ないサンプルを必要とする一方で、忠実な推定を行うことができることを示す。
論文 参考訳(メタデータ) (2022-09-11T13:32:39Z) - Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method [17.275654092947647]
そこで我々はGradaGradを紹介した。GradaGradとは,分母の蓄積によって自然に学習率を向上または縮小する手法である。
AdaGradと同様の収束率を示し、実験により非モノトン適応能力を実証する。
論文 参考訳(メタデータ) (2022-06-14T14:55:27Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Origin of Implicit Regularization in Stochastic Gradient Descent [22.802683068658897]
勾配降下(SGD)は全バッチ損失関数上の勾配流の経路に従う。
ランダムシャッフルを伴うSGDの場合、学習速度が小さく有限であれば、平均SGDは勾配流の経路に近づいたままである。
損失に暗黙の正則化器を明示的に含めれば、学習率が小さい場合にテスト精度が向上することを確認した。
論文 参考訳(メタデータ) (2021-01-28T18:32:14Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。