論文の概要: Understanding How Over-Parametrization Leads to Acceleration: A case of
learning a single teacher neuron
- arxiv url: http://arxiv.org/abs/2010.01637v3
- Date: Mon, 27 Sep 2021 18:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:14:27.023239
- Title: Understanding How Over-Parametrization Leads to Acceleration: A case of
learning a single teacher neuron
- Title(参考訳): 過度パラメータ化が加速につながるかを理解する:単一教師ニューロンを学習する場合
- Authors: Jun-Kun Wang and Jacob Abernethy
- Abstract要約: オーバーパラメトリゼーションはディープラーニングにおいて一般的なテクニックとなっている。
過度パラメトリゼーションは、勾配降下によって生じる反復が、大域的最適解の近傍に入るのに役立つことを示す。
過度なパラメトリゼーションの必要性についても指摘します。
- 参考スコア(独自算出の注目度): 8.452237741722724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-parametrization has become a popular technique in deep learning. It is
observed that by over-parametrization, a larger neural network needs a fewer
training iterations than a smaller one to achieve a certain level of
performance -- namely, over-parametrization leads to acceleration in
optimization. However, despite that over-parametrization is widely used
nowadays, little theory is available to explain the acceleration due to
over-parametrization. In this paper, we propose understanding it by studying a
simple problem first. Specifically, we consider the setting that there is a
single teacher neuron with quadratic activation, where over-parametrization is
realized by having multiple student neurons learn the data generated from the
teacher neuron. We provably show that over-parametrization helps the iterate
generated by gradient descent to enter the neighborhood of a global optimal
solution that achieves zero testing error faster. On the other hand, we also
point out an issue regarding the necessity of over-parametrization and study
how the scaling of the output neurons affects the convergence time.
- Abstract(参考訳): オーバーパラメトリゼーションはディープラーニングにおいて一般的なテクニックとなっている。
オーバーパラメトリゼーション(over-parametrization)によって、大規模なニューラルネットワークは、特定のレベルのパフォーマンスを達成するために、より小さなものよりも少ないトレーニングイテレーションを必要とする。
しかし、今日では過パラメトリゼーションが広く使われているが、過パラメトリゼーションによる加速を説明する理論はほとんどない。
本稿では,まず簡単な問題を研究して理解することを提案する。
具体的には,教師ニューロンが2次活性化を持つ1つの教師ニューロンが存在し,複数の生徒ニューロンに教師ニューロンから生成されたデータを学習させることで過小パラメータ化を実現する。
過パラメータ化は,勾配降下によって発生するイテレートが大域的最適解の近傍に入り込み,テスト誤差のゼロ化に寄与することを示す。
一方で、過剰パラメータ化の必要性に関する問題も指摘し、出力ニューロンのスケーリングが収束時間にどのように影響するかを考察する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Interpreting learning in biological neural networks as zero-order
optimization method [0.0]
本研究では,脳を教師あり学習の統計的方法とみなす。
主な貢献は、BNNにおける接続パラメータの局所的な更新規則をゼロ階最適化法に関連付けることである。
論文 参考訳(メタデータ) (2023-01-27T15:30:25Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - Axonal Delay As a Short-Term Memory for Feed Forward Deep Spiking Neural
Networks [3.985532502580783]
近年の研究では、学習過程において神経細胞の時間遅延が重要な役割を担っていることが判明している。
スパイクの正確なタイミングを設定することは、SNNにおける時間情報の伝達過程を理解し改善するための有望な方向である。
本稿では,教師付き学習に時間遅延を統合することの有効性を検証するとともに,短期記憶による軸索遅延を変調するモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-20T16:56:42Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Representation Memorization for Fast Learning New Knowledge without
Forgetting [36.55736909586313]
新しい知識を素早く学習する能力は、人間レベルの知性への大きな一歩だ。
新しいクラスやデータ配布を迅速かつ漸進的に学ぶ必要があるシナリオを考えます。
本稿では,2つの課題に対処するため,メモリベースのヘビアン適応を提案する。
論文 参考訳(メタデータ) (2021-08-28T07:54:53Z) - Faster Biological Gradient Descent Learning [0.0]
バックプロパゲーション(back-proagation)は、ニューラルネットワークのトレーニングと教師あり学習に勾配勾配を利用する、一般的な機械学習アルゴリズムである。
トレーニング時間を短縮できる単純で局所的な勾配勾配勾配最適化アルゴリズムを考案した。
我々のアルゴリズムは、特に小さなネットワークで学習を高速化する。
論文 参考訳(メタデータ) (2020-09-27T05:26:56Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。