論文の概要: On the training dynamics of deep networks with $L_2$ regularization
- arxiv url: http://arxiv.org/abs/2006.08643v2
- Date: Mon, 4 Jan 2021 17:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 03:25:15.692705
- Title: On the training dynamics of deep networks with $L_2$ regularization
- Title(参考訳): L_2$正規化による深層ネットワークのトレーニング力学について
- Authors: Aitor Lewkowycz and Guy Gur-Ari
- Abstract要約: ディープラーニングにおける$L$正規化の役割について検討する。
これらの経験的関係は、無限に広いネットワークの文脈で理論的に理解可能であることを示す。
- 参考スコア(独自算出の注目度): 16.897223456211027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the role of $L_2$ regularization in deep learning, and uncover
simple relations between the performance of the model, the $L_2$ coefficient,
the learning rate, and the number of training steps. These empirical relations
hold when the network is overparameterized. They can be used to predict the
optimal regularization parameter of a given model. In addition, based on these
observations we propose a dynamical schedule for the regularization parameter
that improves performance and speeds up training. We test these proposals in
modern image classification settings. Finally, we show that these empirical
relations can be understood theoretically in the context of infinitely wide
networks. We derive the gradient flow dynamics of such networks, and compare
the role of $L_2$ regularization in this context with that of linear models.
- Abstract(参考訳): 本研究では,ディープラーニングにおける$l_2$正規化の役割について検討し,モデルの性能,$l_2$係数,学習率,トレーニングステップ数との関係を明らかにする。
これらの経験的関係は、ネットワークが過度にパラメータ化されると成り立つ。
与えられたモデルの最適な正規化パラメータを予測するために使用できる。
また,これらの観測結果に基づいて,正規化パラメータの動的スケジュールを提案し,性能の向上とトレーニングの高速化を図る。
最新の画像分類設定でこれらの提案を検証する。
最後に,これらの経験的関係を無限大ネットワークの文脈で理論的に理解できることを示す。
このようなネットワークの勾配流れのダイナミクスを導出し、この文脈における$l_2$正規化の役割を線形モデルの役割と比較する。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Training Scale-Invariant Neural Networks on the Sphere Can Happen in
Three Regimes [3.808063547958558]
本研究では、固定ELRを用いて、球面上でのスケール不変ニューラルネットワークのトレーニング特性について検討する。
本研究では, 収束, カオス平衡, 分散という, ELR の値に依存する3つの訓練条件を見いだす。
論文 参考訳(メタデータ) (2022-09-08T10:30:05Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。