論文の概要: A Study of Gradient Variance in Deep Learning
- arxiv url: http://arxiv.org/abs/2007.04532v1
- Date: Thu, 9 Jul 2020 03:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:23:11.599099
- Title: A Study of Gradient Variance in Deep Learning
- Title(参考訳): 深層学習における勾配変動の検討
- Authors: Fartash Faghri, David Duvenaud, David J. Fleet, Jimmy Ba
- Abstract要約: 階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
- 参考スコア(独自算出の注目度): 56.437755740715396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impact of gradient noise on training deep models is widely acknowledged
but not well understood. In this context, we study the distribution of
gradients during training. We introduce a method, Gradient Clustering, to
minimize the variance of average mini-batch gradient with stratified sampling.
We prove that the variance of average mini-batch gradient is minimized if the
elements are sampled from a weighted clustering in the gradient space. We
measure the gradient variance on common deep learning benchmarks and observe
that, contrary to common assumptions, gradient variance increases during
training, and smaller learning rates coincide with higher variance. In
addition, we introduce normalized gradient variance as a statistic that better
correlates with the speed of convergence compared to gradient variance.
- Abstract(参考訳): 深層モデルの訓練における勾配雑音の影響は広く認識されているが,よく理解されていない。
この文脈では,トレーニング中の勾配分布について検討する。
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
勾配空間における重み付きクラスタリングから要素をサンプリングした場合, 平均ミニバッチ勾配の分散が最小となることを示す。
一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加し、より小さい学習率がより高い分散と一致することを観察する。
さらに,正規化勾配分散を,勾配分散と比較して収束速度によく相関する統計として導入する。
関連論文リスト
- Distributed Momentum Methods Under Biased Gradient Estimations [6.046591474843391]
分散勾配法は、複数のノードに分散したデータを含む大規模な機械学習問題の解決において、注目を集めている。
しかし、多くの分散機械学習アプリケーションでは、偏りのない勾配推定値を得るのは難しい。
本稿では,偏差勾配推定の下での分散運動量法における非同相収束境界を確立する。
論文 参考訳(メタデータ) (2024-02-29T18:03:03Z) - Achieving acceleration despite very noisy gradients [0.0]
我々はネステロフの加速勾配降下アルゴリズムの一般化を提案する。
AGNESは、勾配推定における信号と雑音の比がどれほど小さくても、加速収束率を達成する。
我々は,AGNESがCNNのトレーニングにおいて,運動量とネステロフの手法により勾配勾配よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-10T21:32:47Z) - Preferential Subsampling for Stochastic Gradient Langevin Dynamics [3.158346511479111]
勾配MCMCは、データの小さな一様重み付きサブサンプルを持つ対数姿勢の勾配をバイアスなく見積もっている。
得られた勾配推定器は、高いばらつきおよび衝撃サンプリング性能を示すことができる。
このような手法は,使用中の平均サブサンプルサイズを大幅に削減しつつ,同じレベルの精度を維持することができることを示す。
論文 参考訳(メタデータ) (2022-10-28T14:56:18Z) - The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - Adaptive Perturbation-Based Gradient Estimation for Discrete Latent
Variable Models [28.011868604717726]
複素離散分布に対する適応勾配推定器であるAdaptive IMLEを提案する。
我々の推定器は、他の勾配推定器よりも桁違いに少ないサンプルを必要とする一方で、忠実な推定を行うことができることを示す。
論文 参考訳(メタデータ) (2022-09-11T13:32:39Z) - Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method [17.275654092947647]
そこで我々はGradaGradを紹介した。GradaGradとは,分母の蓄積によって自然に学習率を向上または縮小する手法である。
AdaGradと同様の収束率を示し、実験により非モノトン適応能力を実証する。
論文 参考訳(メタデータ) (2022-06-14T14:55:27Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。