論文の概要: How neural networks find generalizable solutions: Self-tuned annealing
in deep learning
- arxiv url: http://arxiv.org/abs/2001.01678v1
- Date: Mon, 6 Jan 2020 17:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 03:12:12.306392
- Title: How neural networks find generalizable solutions: Self-tuned annealing
in deep learning
- Title(参考訳): ニューラルネットワークが汎用ソリューションを見つける方法 - ディープラーニングにおける自己調整型アニーリング
- Authors: Yu Feng and Yuhai Tu
- Abstract要約: すべてのSGD学習アルゴリズムに対して,重み分散とランドスケープ平坦度との間には,頑健な逆関係が認められる。
本研究は,SGDが,地形の平らなミニマで一般化可能な解を見つけるために,自己調整型ランドスケープ依存型アニーリング戦略を実現することを示唆している。
- 参考スコア(独自算出の注目度): 7.372592187197655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tremendous success of Stochastic Gradient Descent (SGD) algorithm
in deep learning, little is known about how SGD finds generalizable solutions
in the high-dimensional weight space. By analyzing the learning dynamics and
loss function landscape, we discover a robust inverse relation between the
weight variance and the landscape flatness (inverse of curvature) for all
SGD-based learning algorithms. To explain the inverse variance-flatness
relation, we develop a random landscape theory, which shows that the SGD noise
strength (effective temperature) depends inversely on the landscape flatness.
Our study indicates that SGD attains a self-tuned landscape-dependent annealing
strategy to find generalizable solutions at the flat minima of the landscape.
Finally, we demonstrate how these new theoretical insights lead to more
efficient algorithms, e.g., for avoiding catastrophic forgetting.
- Abstract(参考訳): ディープラーニングにおけるSGD(Stochastic Gradient Descent)アルゴリズムの驚異的な成功にもかかわらず、SGDが高次元の重み空間において一般化可能な解をどのように見つけるかについてはほとんど分かっていない。
学習力学と損失関数のランドスケープを解析することにより,SGDに基づく学習アルゴリズムの重み分散とランドスケープ平坦性(曲率逆)の頑健な逆関係を明らかにする。
逆分散-平坦性関係を説明するために,sgdノイズ強度(有効温度)が景観平坦性に依存することを示すランダムランドスケープ理論を開発した。
本研究は,SGDが,地形の平らなミニマで一般化可能な解を見つけるために,自己調整型ランドスケープ依存型アニーリング戦略を実現することを示唆する。
最後に、これらの新しい理論的な洞察が、例えば破滅的な忘れ物を避けるためにより効率的なアルゴリズムにどのように結びつくかを実証する。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - On the Generalization Capability of Temporal Graph Learning Algorithms:
Theoretical Insights and a Simpler Method [59.52204415829695]
テンポラルグラフ学習(TGL)は、様々な現実世界のアプリケーションにまたがる一般的なテクニックとなっている。
本稿では,異なるTGLアルゴリズムの一般化能力について検討する。
一般化誤差が小さく、全体的な性能が向上し、モデルの複雑さが低下する単純化されたTGLネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T08:22:22Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Stochastic gradient descent introduces an effective landscape-dependent
regularization favoring flat solutions [5.022507593837554]
一般化はディープラーニング(DL)における最も重要な問題の1つである
トレーニングデータに等しく適合する低損失のソリューションは数多く存在する。
鍵となる問題は、どの解がより一般化可能であるかである。
論文 参考訳(メタデータ) (2022-06-02T18:49:36Z) - Quasi-potential theory for escape problem: Quantitative sharpness effect
on SGD's escape from local minima [10.990447273771592]
本研究では,緩やかな勾配降下(SGD)アルゴリズムに関する定量的理論を開発する。
ノイズニューラルネットワークにおける損失面のシャープさの影響について検討する。
論文 参考訳(メタデータ) (2021-11-07T05:00:35Z) - Learning While Dissipating Information: Understanding the Generalization
Capability of SGLD [9.328633662865682]
勾配ランゲヴィンダイナミクス(SGLD)を解析してアルゴリズム依存の一般化を導出する。
分析の結果,学習と情報伝達の複雑なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2021-02-05T03:18:52Z) - Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the
Hessian [48.61341260604871]
Gradient Descent(SGD)は、ディープニューラルネットワーク(DNN)の成功の鍵となる要素である
本稿では、ヘッセンの固有ベクトルを従えば「尾根」と呼ばれる別のアプローチを示す。
理論的および実験的に、我々の手法であるリッジライダー(RR)が様々な課題に対して有望な方向を提供することを示す。
論文 参考訳(メタデータ) (2020-11-12T17:15:09Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Anomalous diffusion dynamics of learning in deep neural networks [0.0]
ディープニューラルネットワーク(DNN)の学習は、高度に非平衡な損失関数を最小化することによって実現される。
本稿では, ロスランドスケープのフラクタル様構造の相互作用を通じて, このような効果的な深層学習が出現することを示す。
論文 参考訳(メタデータ) (2020-09-22T14:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。