論文の概要: Stacking as Accelerated Gradient Descent
- arxiv url: http://arxiv.org/abs/2403.04978v1
- Date: Fri, 8 Mar 2024 01:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 21:28:21.238242
- Title: Stacking as Accelerated Gradient Descent
- Title(参考訳): 加速勾配降下としての積み重ね
- Authors: Naman Agarwal and Pranjal Awasthi and Satyen Kale and Eric Zhao
- Abstract要約: スタック化は、層数を徐々に増やすことで、ディープ残余ネットワークをトレーニングするテクニックである。
本稿では,積み重ねの有効性に関する理論的説明を提案する。
我々は、ある深い線形残差ネットワークに対して、スタックリングが加速トレーニングをもたらすことを証明した。
- 参考スコア(独自算出の注目度): 44.17524017365296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stacking, a heuristic technique for training deep residual networks by
progressively increasing the number of layers and initializing new layers by
copying parameters from older layers, has proven quite successful in improving
the efficiency of training deep neural networks. In this paper, we propose a
theoretical explanation for the efficacy of stacking: viz., stacking implements
a form of Nesterov's accelerated gradient descent. The theory also covers
simpler models such as the additive ensembles constructed in boosting methods,
and provides an explanation for a similar widely-used practical heuristic for
initializing the new classifier in each round of boosting. We also prove that
for certain deep linear residual networks, stacking does provide accelerated
training, via a new potential function analysis of the Nesterov's accelerated
gradient method which allows errors in updates. We conduct proof-of-concept
experiments to validate our theory as well.
- Abstract(参考訳): 階層化は、階層の数を徐々に増加させ、古い層からパラメータをコピーすることによって新しい層を初期化することによって、ディープニューラルネットワークをトレーニングするためのヒューリスティックなテクニックである。
本稿では,スタック化の有効性に関する理論的説明を提案する: viz., stackingはネステロフの加速度勾配降下の一形態を実装している。
この理論はまた、ブースティング法で構築された加法的アンサンブルのようなより単純なモデルも取り上げており、ブースティングの各ラウンドで新しい分類器を初期化するための同様の広く使われている実践的ヒューリスティックについての説明を提供する。
また,一部のディープリニア残差ネットワークでは,更新エラーを許容するネステロフ加速度勾配法の新しいポテンシャル関数解析により,スタックリングが高速化トレーニングを提供することを示した。
概念実証実験を行い、理論の検証を行う。
関連論文リスト
- Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks [15.691263438655842]
Spiking Neural Network(SNN)は生物学的にインスパイアされたニューラルネットワーク基盤であり、最近大きな注目を集めている。
SNNの訓練は、発射スパイクプロセスの未定義の勾配のため、直接的に挑戦する。
本論文では,損失から浅い層に直接勾配を伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-01-09T10:54:41Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - Initialization and Regularization of Factorized Neural Layers [23.875225732697142]
ディープネットにおける因子化層の初期化と規則化の方法を示す。
これらのスキームが翻訳と教師なしプリトレーニングの両方のパフォーマンスを向上させる方法を示しています。
論文 参考訳(メタデータ) (2021-05-03T17:28:07Z) - Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。
学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。
この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文 参考訳(メタデータ) (2020-10-27T06:01:43Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。