論文の概要: Universal scaling laws in the gradient descent training of neural
networks
- arxiv url: http://arxiv.org/abs/2105.00507v1
- Date: Sun, 2 May 2021 16:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:12:18.538096
- Title: Universal scaling laws in the gradient descent training of neural
networks
- Title(参考訳): ニューラルネットワークの勾配降下訓練における普遍的スケーリング則
- Authors: Maksim Velikanov and Dmitry Yarotsky
- Abstract要約: 学習軌跡は,大きな訓練時間に明示的な境界によって特徴づけられることを示す。
結果は,期待される損失に基づいて訓練された大規模ネットワークの進化のスペクトル解析に基づいている。
- 参考スコア(独自算出の注目度): 10.508187462682308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current theoretical results on optimization trajectories of neural networks
trained by gradient descent typically have the form of rigorous but potentially
loose bounds on the loss values. In the present work we take a different
approach and show that the learning trajectory can be characterized by an
explicit asymptotic at large training times. Specifically, the leading term in
the asymptotic expansion of the loss behaves as a power law $L(t) \sim
t^{-\xi}$ with exponent $\xi$ expressed only through the data dimension, the
smoothness of the activation function, and the class of function being
approximated. Our results are based on spectral analysis of the integral
operator representing the linearized evolution of a large network trained on
the expected loss. Importantly, the techniques we employ do not require
specific form of a data distribution, for example Gaussian, thus making our
findings sufficiently universal.
- Abstract(参考訳): 勾配降下によって訓練されたニューラルネットワークの最適化軌道に関する現在の理論結果は、通常、損失値の厳密だがゆるい境界を持つ。
本研究では,異なるアプローチを採り,学習の軌跡を,大きな訓練時間において明示的な漸近性によって特徴づけることができることを示す。
特に、損失の漸近展開における先行項は、データ次元、活性化関数の滑らかさ、近似される関数のクラスを通してのみ表現される指数 $\xi$ で表されるパワーローム $l(t) \sim t^{-\xi}$ として振る舞う。
この結果は,期待損失に基づいて学習した大規模ネットワークの線形化進化を表す積分作用素のスペクトル解析に基づく。
重要なのは、私たちが採用するテクニックは、例えばgaussianのような、特定の形式のデータ分散を必要としないことです。
関連論文リスト
- A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Feature learning in finite-width Bayesian deep linear networks with multiple outputs and convolutional layers [39.71511919246829]
深い線形ネットワークは広く研究されているが、複数の出力と畳み込み層を持つ有限幅アーキテクチャの場合はほとんど知られていない。
我々の研究は、この物理学の直観と用語を厳密なベイズ統計に翻訳する辞書を提供する。
論文 参考訳(メタデータ) (2024-06-05T13:37:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Fast Convergence in Learning Two-Layer Neural Networks with Separable
Data [37.908159361149835]
2層ニューラルネット上の正規化勾配勾配について検討した。
正規化GDを用いてトレーニング損失の線形収束率を大域的最適に導くことを証明する。
論文 参考訳(メタデータ) (2023-05-22T20:30:10Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - The Implicit Bias of Gradient Descent on Generalized Gated Linear
Networks [3.3946853660795893]
数学的に抽出可能な深部非線形ニューラルネットワーク(GLN)の無限時間学習限界を導出する。
アーキテクチャ上の制約と勾配勾配のバイアスがパフォーマンスにどのように影響するかを示す。
帰納的バイアスを明確にすることで、我々のフレームワークはより効率的で生物学的に妥当で堅牢な学習アルゴリズムの開発を知らせる。
論文 参考訳(メタデータ) (2022-02-05T22:37:39Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。