論文の概要: Rethinking the Structure of Stochastic Gradients: Empirical and
Statistical Evidence
- arxiv url: http://arxiv.org/abs/2212.02083v1
- Date: Mon, 5 Dec 2022 07:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:46:21.853584
- Title: Rethinking the Structure of Stochastic Gradients: Empirical and
Statistical Evidence
- Title(参考訳): 確率勾配の構造を再考する:実証的および統計的証拠
- Authors: Zeke Xie, Qian-Yuan Tang, Zheng He, Mingming Sun, Ping Li
- Abstract要約: 一方,ミニバッチトレーニングによる繰り返し勾配と勾配雑音は,通常,パワー則重尾は示さない。
我々の研究は、勾配の異方的構造が深層学習に重要であるという信念に挑戦し、深層学習における勾配の構造に関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 21.841487466349417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradients closely relate to both optimization and generalization
of deep neural networks (DNNs). Some works attempted to explain the success of
stochastic optimization for deep learning by the arguably heavy-tail properties
of gradient noise, while other works presented theoretical and empirical
evidence against the heavy-tail hypothesis on gradient noise. Unfortunately,
formal statistical tests for analyzing the structure and heavy tails of
stochastic gradients in deep learning are still under-explored. In this paper,
we mainly make two contributions. First, we conduct formal statistical tests on
the distribution of stochastic gradients and gradient noise across both
parameters and iterations. Our statistical tests reveal that dimension-wise
gradients usually exhibit power-law heavy tails, while iteration-wise gradients
and stochastic gradient noise caused by minibatch training usually do not
exhibit power-law heavy tails. Second, we further discover that the covariance
spectra of stochastic gradients have the power-law structures in deep learning.
While previous papers believed that the anisotropic structure of stochastic
gradients matters to deep learning, they did not expect the gradient covariance
can have such an elegant mathematical structure. Our work challenges the
existing belief and provides novel insights on the structure of stochastic
gradients in deep learning.
- Abstract(参考訳): 確率勾配はディープニューラルネットワーク(DNN)の最適化と一般化の両方に密接に関係している。
いくつかの研究は、勾配雑音の重テール特性による深層学習における確率的最適化の成功を説明しようとしたが、他の研究は勾配雑音の重テール仮説に対する理論的および実証的な証拠を提示した。
残念ながら、深層学習における確率勾配の構造と重い尾の解析のための形式的な統計テストはまだ未検討である。
本稿では,主に2つの貢献をする。
まず,確率的勾配と勾配雑音の分布について,パラメータと反復をまたいだ形式的統計実験を行う。
我々の統計的テストでは、次元的勾配は典型的にはパワーロー重尾を示すが、反復的勾配とミニバッチトレーニングによる確率的勾配ノイズは通常パワーロー重尾を示すものではない。
第2に,確率勾配の共分散スペクトルが深層学習におけるパワー・ロー構造を持つことを明らかにする。
従来の論文では、確率勾配の異方性構造は深層学習に重要であると考えられていたが、勾配の共分散がそのようなエレガントな数学的構造を持つとは考えていなかった。
我々の研究は既存の信念に挑戦し、深層学習における確率的勾配の構造に関する新しい洞察を提供する。
関連論文リスト
- Limit Theorems for Stochastic Gradient Descent with Infinite Variance [47.87144151929621]
この勾配降下アルゴリズムは、適切なL'evy過程によって駆動されるオルンシュタイン-ルンシュタイン過程の定常分布として特徴付けられることを示す。
また、これらの結果の線形回帰モデルおよびロジスティック回帰モデルへの応用についても検討する。
論文 参考訳(メタデータ) (2024-10-21T09:39:10Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of
Stochasticity [24.428843425522107]
直交線形ネットワーク上の勾配降下の力学を,その連続時間,すなわち勾配流を用いて研究する。
トレーニング損失の収束速度がバイアス効果の大きさを制御することを示し,収束速度が遅くなるほどバイアスが良くなることを示した。
論文 参考訳(メタデータ) (2021-06-17T14:16:04Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization [15.2292571922932]
本稿では,勾配降下のダイナミクスに関する仮説に基づいて,この問題に答えるアプローチを提案する。
トレーニング中のネットワークパラメータの変更は、(局所的に)同時に多くのサンプルに役立つものに偏っていることを示す。
論文 参考訳(メタデータ) (2020-02-25T03:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。