Fugu-MT 論文翻訳(概要): On the Stochastic Gradient Descent and Inverse Variance-flatness Relation in Artificial Neural Networks

論文の概要: On the Stochastic Gradient Descent and Inverse Variance-flatness Relation in Artificial Neural Networks

arxiv url: http://arxiv.org/abs/2207.04932v1
Date: Mon, 11 Jul 2022 15:13:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 16:29:17.765800
Title: On the Stochastic Gradient Descent and Inverse Variance-flatness Relation in Artificial Neural Networks
Title（参考訳）: ニューラルネットワークにおける確率的勾配勾配と逆変動-平坦性関係について
Authors: Xia Xiong, Yong-Cong Chen, Chunxiao Shi and Ping Ao
Abstract要約: 最近の研究は、ニューラルウェイトの分散と損失関数のランドスケープ平坦性の間の一般的な逆分散平坦性(IVF)の関係を明らかにした。我々は、勾配降下(SGD)の動的特性を解析するために分解をデプロイする。我々のアプローチは、古典的な統計力学と人工知能の新たな分野とのギャップを埋めるかもしれない。
参考スコア（独自算出の注目度）: 0.11470070927586014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient descent (SGD), a widely used algorithm in deep-learning neural networks has attracted continuing studies for the theoretical principles behind its success. A recent work uncovered a generic inverse variance-flatness (IVF) relation between the variance of neural weights and the landscape flatness of loss function near solutions under SGD [Feng & Tu, PNAS 118,0027 (2021)]. To investigate this seemly violation of statistical principle, we deploy a stochastic decomposition to analyze the dynamical properties of SGD. The method constructs the true "energy" function which can be used by Boltzmann distribution. The new energy differs from the usual cost function and explains the IVF relation under SGD. We further verify the scaling relation identified in Feng's work. Our approach may bridge the gap between the classical statistical mechanics and the emerging discipline of artificial intelligence, with potential for better algorithm to the latter.
Abstract（参考訳）: ディープラーニングニューラルネットワークにおいて広く使われているアルゴリズムである確率勾配降下(SGD)は、その成功の背後にある理論的原理に関する継続的な研究を引き寄せている。最近の研究では、神経重みのばらつきと、sgd (feng & tu, pnas 118,0027 (2021)) 下での解近傍の損失関数の平坦性との関係が明らかになった。統計的原理に反すると思われるこの現象を調べるため,SGDの力学特性を解析するために確率分解を展開させる。この方法はボルツマン分布で使用できる真の「エネルギー」関数を構成する。新しいエネルギーは通常のコスト関数と異なり、SGDの下でIVF関係を説明する。さらに,Fengの研究で確認されたスケーリング関係を検証する。我々のアプローチは、古典的な統計力学と人工知能の新たな分野のギャップを埋め、後者により良いアルゴリズムをもたらす可能性がある。

関連論文リスト

Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks [12.061229162870513]
2層ニューラルネットワークのトレーニング力学について検討する。トレーニングダイナミクスにはいくつかの新しい現象がある。これらには、ガウス/ラデマッハの複雑さの増大に伴う緩やかな時間スケールの出現が含まれる。
論文参考訳（メタデータ） (2025-02-28T17:45:26Z)
Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks [0.6906005491572401]
モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
論文参考訳（メタデータ） (2024-02-04T02:48:28Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations, and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文参考訳（メタデータ） (2021-07-19T20:18:57Z)
Fractal Structure and Generalization Properties of Stochastic Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文参考訳（メタデータ） (2021-06-09T08:05:36Z)
Noise and Fluctuation of Finite Learning Rate Stochastic Gradient Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。 SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文参考訳（メタデータ） (2020-12-07T12:31:43Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文参考訳（メタデータ） (2020-02-22T22:12:56Z)
Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文参考訳（メタデータ） (2020-02-13T18:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。