論文の概要: Stochastic Gradient Descent and Anomaly of Variance-flatness Relation in
Artificial Neural Networks
- arxiv url: http://arxiv.org/abs/2207.04932v2
- Date: Mon, 12 Jun 2023 14:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:38:15.717482
- Title: Stochastic Gradient Descent and Anomaly of Variance-flatness Relation in
Artificial Neural Networks
- Title(参考訳): ニューラルネットワークにおける確率的勾配勾配と変動平坦性関係の異常
- Authors: Xia Xiong, Yong-Cong Chen, Chunxiao Shi and Ping Ao
- Abstract要約: SGDにより駆動される損失関数の景観平坦度と神経重みの分散の異常(逆)関係について検討した。
提案手法は, 一般の「エネルギー」関数を回復し, 異常により引き起こされるパラドックスを解消する。
この研究は、古典的な統計力学と人工知能の分布の規律のギャップを埋め、後者により良いアルゴリズムの可能性を秘めている。
- 参考スコア(独自算出の注目度): 0.11470070927586014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD), a widely used algorithm in deep-learning
neural networks has attracted continuing studies for the theoretical principles
behind its success. A recent work reports an anomaly (inverse) relation between
the variance of neural weights and the landscape flatness of the loss function
driven under SGD [Feng & Tu, PNAS 118, 0027 (2021)]. To investigate this
seemingly violation of statistical physics principle, the properties of SGD
near fixed points are analysed via a dynamic decomposition method. Our approach
recovers the true "energy" function under which the universal Boltzmann
distribution holds. It differs from the cost function in general and resolves
the paradox raised by the the anomaly. The study bridges the gap between the
classical statistical mechanics and the emerging discipline of artificial
intelligence, with potential for better algorithms to the latter.
- Abstract(参考訳): ディープラーニングニューラルネットワークにおいて広く使われているアルゴリズムである確率勾配降下(SGD)は、その成功の背後にある理論的原理に関する継続的な研究を引き寄せている。
最近の研究は、SGD(Feng & Tu, PNAS 118, 0027 (2021))の下で駆動される損失関数の空間平坦度と神経重みの分散の異常(逆)関係を報告している。
統計物理学の原理を破るように見えるこの性質を調べるために、不動点近傍のsgdの特性を動的分解法で解析する。
我々のアプローチは、普遍ボルツマン分布が持つ真の「エネルギー」関数を復元する。
これは一般的にコスト関数と異なり、異常によって引き起こされるパラドックスを解消する。
この研究は、古典的な統計力学と人工知能の新たな分野の間のギャップを橋渡しし、より優れたアルゴリズムの可能性を秘めている。
関連論文リスト
- Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks [0.6906005491572401]
モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。
また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。