論文の概要: On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling
- arxiv url: http://arxiv.org/abs/2505.22491v2
- Date: Sat, 25 Oct 2025 11:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.595605
- Title: On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling
- Title(参考訳): 標準幅スケーリングにおける大規模学習率のサプライズ効果について
- Authors: Moritz Haas, Sebastian Bordt, Ulrike von Luxburg, Leena Chennuru Vankadara,
- Abstract要約: 最適な学習速度は理論的な予測よりも遅く、ネットワークは、非常に広い範囲でも安定した訓練と非自明な特徴学習の両方を示します。
特に, クロスエントロピー (CE) の損失下では, 不安定な状態は, 破滅的な不安定な状態と, より良質な制御された分岐状態の2つのサブレジムから構成されることを示す。
我々の経験的証拠は、幅スケーリングの考慮は、経験的最大学習率指数を予測するのに驚くほど有用であることを示している。
- 参考スコア(独自算出の注目度): 15.769249369390884
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling limits, such as infinite-width limits, serve as promising theoretical tools to study large-scale models. However, it is widely believed that existing infinite-width theory does not faithfully explain the behavior of practical networks, especially those trained in standard parameterization (SP) meaning He initialization with a global learning rate. For instance, existing theory for SP predicts instability at large learning rates and vanishing feature learning at stable ones. In practice, however, optimal learning rates decay slower than theoretically predicted and networks exhibit both stable training and non-trivial feature learning, even at very large widths. Here, we show that this discrepancy is not fully explained by finite-width phenomena. Instead, we find a resolution through a finer-grained analysis of the regime previously considered unstable and therefore uninteresting. In particular, we show that, under cross-entropy (CE) loss, the unstable regime comprises two distinct sub-regimes: a catastrophically unstable regime and a more benign controlled divergence regime, where logits diverge but gradients and activations remain stable. Moreover, under large learning rates at the edge of the controlled divergence regime, there exists a well-defined infinite width limit where features continue to evolve in all the hidden layers. In experiments across optimizers, architectures, and data modalities, we validate that neural networks operate in this controlled divergence regime under CE loss but not under MSE loss. Our empirical evidence suggests that width-scaling considerations are surprisingly useful for predicting empirically maximal stable learning rate exponents which provide useful guidance on optimal learning rate exponents. Finally, our analysis clarifies the effectiveness and limitations of recently proposed layerwise learning rate scaling for standard initialization.
- Abstract(参考訳): 無限幅制限のようなスケーリング限界は、大規模モデルを研究するための有望な理論的ツールとなる。
しかし、既存の無限幅理論は実践的ネットワークの挙動を忠実に説明していないと広く信じられている。
例えば、SPの既存の理論は、大きな学習率で不安定を予測し、安定な学習で特徴学習を消滅させる。
しかし、実際には、最適学習率は理論的な予測よりも遅く、ネットワークは、非常に広い範囲でも安定した訓練と非自明な特徴学習の両方を示す。
ここでは、この相違が有限幅現象によって完全に説明されないことを示す。
代わりに、これまで不安定で、したがって興味をそそらないと考えられていた体制のよりきめ細かい分析を通して、解決を見いだす。
特に, クロスエントロピー (CE) の損失下では, 不安定な状態は, 破滅的な不安定な状態と, 対流が分岐するが勾配や活性化が安定なより良質な制御された分岐状態の2つのサブレジームから構成されることを示す。
さらに、制御された発散状態の端にある大きな学習速度の下では、すべての隠蔽層で機能が進化し続けるような、明確に定義された無限の幅制限が存在する。
最適化器、アーキテクチャ、データモダリティをまたいだ実験では、ニューラルネットワークが制御された分散状態においてCE損失の下で動作し、MSE損失下では動作しないことを確認した。
我々の経験的証拠は、幅スケーリングの考慮は、最適学習率指数に関する有用なガイダンスを提供する経験的最大学習率指数を予測するのに驚くほど有用であることを示している。
最後に,近年提案されている標準初期化のための階層的学習率スケーリングの有効性と限界を明らかにする。
関連論文リスト
- CLUE: Neural Networks Calibration via Learning Uncertainty-Error alignment [7.702016079410588]
CLUE(Calibration via Learning Uncertainty-Error Alignment)は,学習中の予測不確かさを観測誤差と整合させる新しい手法である。
CLUEは,最先端のアプローチに対して,キャリブレーション品質と競争予測性能に優れることを示す。
論文 参考訳(メタデータ) (2025-05-28T19:23:47Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP) [0.0]
CLOPは、クラス埋め込み間の線形部分空間の形成を促進することにより、神経崩壊を防止するために設計された、新しい半教師付き損失関数である。
CLOPは性能を向上し,学習速度やバッチサイズにまたがる安定性が向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。