Fugu-MT 論文翻訳(概要): The large learning rate phase of deep learning: the catapult mechanism

論文の概要: The large learning rate phase of deep learning: the catapult mechanism

arxiv url: http://arxiv.org/abs/2003.02218v1
Date: Wed, 4 Mar 2020 17:52:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 12:34:14.703279
Title: The large learning rate phase of deep learning: the catapult mechanism
Title（参考訳）: 深層学習における大きな学習速度相:カタパルト機構
Authors: Aitor Lewkowycz, Yasaman Bahri, Ethan Dyer, Jascha Sohl-Dickstein, Guy Gur-Ari
Abstract要約: 問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
参考スコア（独自算出の注目度）: 50.23041928811575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The choice of initial learning rate can have a profound effect on the performance of deep networks. We present a class of neural networks with solvable training dynamics, and confirm their predictions empirically in practical deep learning settings. The networks exhibit sharply distinct behaviors at small and large learning rates. The two regimes are separated by a phase transition. In the small learning rate phase, training can be understood using the existing theory of infinitely wide neural networks. At large learning rates the model captures qualitatively distinct phenomena, including the convergence of gradient descent dynamics to flatter minima. One key prediction of our model is a narrow range of large, stable learning rates. We find good agreement between our model's predictions and training dynamics in realistic deep learning settings. Furthermore, we find that the optimal performance in such settings is often found in the large learning rate phase. We believe our results shed light on characteristics of models trained at different learning rates. In particular, they fill a gap between existing wide neural network theory, and the nonlinear, large learning rate, training dynamics relevant to practice.
Abstract（参考訳）: 初期学習率の選択は、ディープネットワークの性能に大きな影響を及ぼす可能性がある。本稿では,学習ダイナミクスを解き明かすニューラルネットワークのクラスを示し,その予測を実際のディープラーニング環境で経験的に確認する。ネットワークは、小さくて大きな学習率で鋭く異なる行動を示す。 2つの体制は相転移によって分離される。小さな学習率のフェーズでは、無限大ニューラルネットワークの既存の理論を用いてトレーニングを理解することができる。大きな学習率で、モデルは定性的に異なる現象を捉え、グラデーション降下ダイナミクスをフラットな最小値に収束させる。我々のモデルの1つの重要な予測は、広範囲で安定した学習率である。実際のディープラーニング環境では,モデル予測とトレーニングダイナミクスとの間によい一致が得られます。さらに,このような設定における最適性能は,大きな学習率フェーズでよく見られることがわかった。我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。特に、既存の広義のニューラルネットワーク理論と、非線形で大きな学習率、練習に関連するトレーニングダイナミクスとのギャップを埋める。

関連論文リスト

The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions [51.68215326304272]
たとえ小さな摂動であっても、同じ訓練軌跡を確実に引き起こすことで、トレーニング時間とともに急速に減少する効果が発散することを示します。この結果から,ニューラルネットワークのトレーニング安定性,微調整,モデルマージ,モデルアンサンブルの多様性の実践的意味が示唆された。
論文参考訳（メタデータ） (2025-06-16T08:35:16Z)
Understanding Sharpness Dynamics in NN Training with a Minimalist Example: The Effects of Dataset Difficulty, Depth, Stochasticity, and More [10.65078014704416]
シャープさのあるディープニューラルネットワークをトレーニングする場合、安定性の端で飽和する前に、しばしば増加する。本研究では、この現象をミニマリストモデル、すなわち1層に1つのニューロンを持つディープ線形ネットワークを用いて研究する。この単純なモデルは、最近の経験的研究で観察されたシャープネスのダイナミクスを効果的に捉え、ニューラルネットワークのトレーニングをよりよく理解するための簡単なテストベッドを提供する。
論文参考訳（メタデータ） (2025-06-07T22:35:13Z)
Statistical mechanics of extensive-width Bayesian neural networks near interpolation [4.976898227858662]
総重量分布と活性化関数を持つ2層完全連結ネットワークの教師あり学習について検討した。我々は、同じアーキテクチャを持つ別のネットワークによって生成されたデータセットを用いて、教師学生のシナリオにおけるベイズ最適学習に焦点を当てる。分析の結果,データ数の増加に伴い,多様な学習遷移を伴う豊富な現象が明らかになった。
論文参考訳（メタデータ） (2025-05-30T17:46:59Z)
Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。 3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文参考訳（メタデータ） (2024-10-31T22:54:34Z)
Unified Neural Network Scaling Laws and Scale-time Equivalence [10.918504301310753]
本稿では、モデルサイズ、トレーニング時間、データボリュームの3つの要因がどのように相互作用し、ディープニューラルネットワークの性能を決定するかという、新しい理論的特徴を示す。まず、ニューラルネットワークのサイズを拡大し、トレーニング時間を比例的に増加させることで、理論的かつ経験的な等価性を確立する。次に、スケール時間同値と二重降下の線形モデル解析を組み合わせ、統一された理論的スケーリング法則を得る。
論文参考訳（メタデータ） (2024-09-09T16:45:26Z)
Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron [3.069335774032178]
学習を記述するフロー方程式を導出するために,データセット処理アプローチを用いる。学習ルール(教師付きまたは強化学習,SL/RL)と入力データ分布が知覚者の学習曲線に及ぼす影響を特徴付ける。このアプローチは、より複雑な回路アーキテクチャの学習力学を解析する方法を示している。
論文参考訳（メタデータ） (2024-09-05T17:58:28Z)
A simple theory for training response of deep neural networks [0.0]
ディープニューラルネットワークは、トレーニングデータセットの入力と出力の関係をモデル化する強力な方法を提供します。トレーニング段階、アクティベーション機能、トレーニング方法に基づいて、トレーニング応答がいくつかの異なる要因から成り立っていることを示す。さらに,ネットワークの脆弱性を生じさせるトレーニング力学の効果として,特徴空間の削減を示す。
論文参考訳（メタデータ） (2024-05-07T07:20:15Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文参考訳（メタデータ） (2021-12-06T18:17:08Z)
How to Train Your Neural Network: A Comparative Evaluation [1.3654846342364304]
大規模分散ディープラーニングのための最先端フレームワークについて論じ,比較する。大規模画像と言語訓練における性能を比較した実験結果を示す。この結果に基づいて,性能を阻害する各フレームワークのアルゴリズム的部分と実装的部分について議論する。
論文参考訳（メタデータ） (2021-11-09T04:24:42Z)
Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文参考訳（メタデータ） (2021-10-16T16:51:05Z)
What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文参考訳（メタデータ） (2021-06-12T13:05:11Z)
Sparse Meta Networks for Sequential Adaptation and its Application to Adaptive Language Modelling [7.859988850911321]
Sparse Meta Networksは、ディープニューラルネットワークのオンラインシーケンシャル適応アルゴリズムを学習するためのメタ学習アプローチである。層固有の高速メモリでディープニューラルネットワークを強化する。様々な逐次適応シナリオにおいて高い性能を示す。
論文参考訳（メタデータ） (2020-09-03T17:06:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。