論文の概要: Taylorized Training: Towards Better Approximation of Neural Network
Training at Finite Width
- arxiv url: http://arxiv.org/abs/2002.04010v2
- Date: Mon, 24 Feb 2020 21:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:59:26.242485
- Title: Taylorized Training: Towards Better Approximation of Neural Network
Training at Finite Width
- Title(参考訳): Taylorized Training: 有限幅でのニューラルネットワークトレーニングの近似性向上を目指して
- Authors: Yu Bai, Ben Krause, Huan Wang, Caiming Xiong, Richard Socher
- Abstract要約: Taylorized Trainingは、ニューラルネットワークの$k$-orderTaylor拡張をトレーニングする。
我々は、Taylorized Trainingが完全なニューラルネットワークトレーニングに同意していることを示します。
本実験は, 広帯域ニューラルネットワークにおいて, 近似誤差$k$-階Taylorized Modelが指数関数的に$k$以上減衰することを示す理論的結果と相補する。
- 参考スコア(独自算出の注目度): 116.69845849754186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose \emph{Taylorized training} as an initiative towards better
understanding neural network training at finite width. Taylorized training
involves training the $k$-th order Taylor expansion of the neural network at
initialization, and is a principled extension of linearized training---a
recently proposed theory for understanding the success of deep learning.
We experiment with Taylorized training on modern neural network
architectures, and show that Taylorized training (1) agrees with full neural
network training increasingly better as we increase $k$, and (2) can
significantly close the performance gap between linearized and full training.
Compared with linearized training, higher-order training works in more
realistic settings such as standard parameterization and large (initial)
learning rate. We complement our experiments with theoretical results showing
that the approximation error of $k$-th order Taylorized models decay
exponentially over $k$ in wide neural networks.
- Abstract(参考訳): 有限幅のニューラルネットワークトレーニングをより理解するための取り組みとして, \emph{taylorized training}を提案する。
Taylorized Trainingは、初期化時にニューラルネットワークの$k$-orderTaylor拡張をトレーニングすることを含み、線形化トレーニングの原則拡張であり、ディープラーニングの成功を理解するための最近提案された理論である。
我々は,現代のニューラルネットワークアーキテクチャにおけるテーラライズドトレーニングを実験し,(1)テーラライズドトレーニングは,k$の増加に伴って,フルニューラルネットワークトレーニングと一致し,(2)リニアライズトレーニングとフルトレーニングのパフォーマンスギャップを著しく縮小できることを示した。
線形化トレーニングと比較して、高次トレーニングは標準パラメータ化や大規模(初期)学習率といったより現実的な設定で動作する。
実験結果を理論的に補完し, 広域ニューラルネットワークにおいて, テイラー化モデルの近似誤差が指数関数的に$k$以上減衰することを示した。
関連論文リスト
- Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - One Forward is Enough for Neural Network Training via Likelihood Ratio
Method [47.013384887197454]
バックプロパゲーション(BP)は、ニューラルネットワークトレーニングにおける勾配計算の主流のアプローチである。
本手法は,1つの前方伝播による推定のための統一可能性比 (ULR) 法を提案する。
論文 参考訳(メタデータ) (2023-05-15T19:02:46Z) - Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文 参考訳(メタデータ) (2022-12-14T15:58:37Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文 参考訳(メタデータ) (2021-07-20T12:17:55Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Towards Compact Neural Networks via End-to-End Training: A Bayesian
Tensor Approach with Automatic Rank Determination [11.173092834726528]
コンパクトニューラルネットワークをスクラッチから直接、低メモリと低計算コストでトレーニングすることが望ましい。
低ランクテンソル分解は、大規模ニューラルネットワークのメモリと計算要求を減らす最も効果的な手法の1つである。
本稿では,ニューラルネットワークの低ランクテンソル化トレーニングのためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-17T01:23:26Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。