論文の概要: On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling
- arxiv url: http://arxiv.org/abs/2505.22491v1
- Date: Wed, 28 May 2025 15:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.703044
- Title: On the Surprising Effectiveness of Large Learning Rates under Standard Width Scaling
- Title(参考訳): 標準幅スケーリングにおける大規模学習率のサプライズ効果について
- Authors: Moritz Haas, Sebastian Bordt, Ulrike von Luxburg, Leena Chennuru Vankadara,
- Abstract要約: 既存の無限幅理論は、大きな学習率で不安定を予測し、安定した学習率で特徴学習を消滅させる。
この相違は,カタパルト効果などの有限幅現象によって完全に説明できないことを示す。
制御された分散状態下でのニューラルネットワークの動作はCE損失では有効であるが,MSE損失では不可能である。
- 参考スコア(独自算出の注目度): 11.168336416219857
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The dominant paradigm for training large-scale vision and language models is He initialization and a single global learning rate (\textit{standard parameterization}, SP). Despite its practical success, standard parametrization remains poorly understood from a theoretical perspective: Existing infinite-width theory would predict instability under large learning rates and vanishing feature learning under stable learning rates. However, empirically optimal learning rates consistently decay much slower than theoretically predicted. By carefully studying neural network training dynamics, we demonstrate that this discrepancy is not fully explained by finite-width phenomena such as catapult effects or a lack of alignment between weights and incoming activations. We instead show that the apparent contradiction can be fundamentally resolved by taking the loss function into account: In contrast to Mean Squared Error (MSE) loss, we prove that under cross-entropy (CE) loss, an intermediate \textit{controlled divergence} regime emerges, where logits diverge but loss, gradients, and activations remain stable. Stable training under large learning rates enables persistent feature evolution at scale in all hidden layers, which is crucial for the practical success of SP. In experiments across optimizers (SGD, Adam), architectures (MLPs, GPT) and data modalities (vision, language), we validate that neural networks operate in this controlled divergence regime under CE loss but not under MSE loss. Our empirical evidence suggests that width-scaling considerations are surprisingly useful for predicting empirically optimal learning rate exponents. Finally, our analysis clarifies the effectiveness and limitations of recently proposed layerwise learning rate scalings for standard initialization.
- Abstract(参考訳): 大規模ビジョンと言語モデルを訓練するための主要なパラダイムは、He初期化と単一のグローバルラーニングレート(\textit{standard parameterization}, SP)である。
既存の無限幅理論は、大きな学習率で不安定を予測し、安定した学習率で特徴学習を消滅させる。
しかし、経験論的に最適な学習速度は、理論上予測されたよりもずっと遅く崩壊する。
ニューラルネットワークのトレーニング力学を慎重に研究することにより、この相違がカタパルト効果やウェイトと入ってくるアクティベーションのアライメントの欠如といった有限幅現象によって完全に説明されないことを示す。
平均二乗誤差(MSE)損失とは対照的に、クロスエントロピー(CE)損失の下では、中間的 \textit{control divergence} 状態が出現し、ロジットは分散するが、損失、勾配、アクティベーションは安定であることを示す。
大規模な学習率での安定したトレーニングは、SPの実践的な成功に欠かせないすべての隠蔽層において、大規模な機能進化を可能にする。
最適化器(SGD,Adam)、アーキテクチャ(MLPs,GPT)、データモダリティ(ビジョン,言語)にわたる実験において、ニューラルネットワークがCE損失下で制御された分散状態において動作し、MSE損失下では動作しないことを確認した。
我々の経験的証拠は、幅スケーリングは経験的最適学習率指数を予測するのに驚くほど有用であることを示唆している。
最後に,近年提案されている標準初期化のための階層的学習率スケーリングの有効性と限界を明らかにする。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Preventing Collapse in Contrastive Learning with Orthonormal Prototypes (CLOP) [0.0]
CLOPは、クラス埋め込み間の線形部分空間の形成を促進することにより、神経崩壊を防止するために設計された、新しい半教師付き損失関数である。
CLOPは性能を向上し,学習速度やバッチサイズにまたがる安定性が向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T15:48:16Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Boosted Control Functions: Distribution generalization and invariance in confounded models [10.503777692702952]
非線形で非同定可能な構造関数が存在する場合でも分布の一般化を可能にする不変性という強い概念を導入する。
フレキシブルな機械学習手法を用いて,ブースト制御関数(BCF)を推定する制御Twicingアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。