論文の概要: Rethinking Neural Network Learning Rates: A Stackelberg Perspective
- arxiv url: http://arxiv.org/abs/2605.15530v1
- Date: Fri, 15 May 2026 01:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.149722
- Title: Rethinking Neural Network Learning Rates: A Stackelberg Perspective
- Title(参考訳): ニューラルネットワークの学習率を再考する - Stackelbergの視点
- Authors: Sihan Zeng, Sujay Bhatt, Sumitra Ganesh,
- Abstract要約: ニューラルネットワークの学習速度は体層でより小さく、最終層でより大きい学習率で訓練することは、2段階の交互降下勾配アルゴリズムとして解釈できることを示す。
非一様学習率が一様学習率を上回る2つのメカニズムを同定する。
- 参考スコア(独自算出の注目度): 14.206253864662324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks are typically trained with a single learning rate across all layers. While recent empirical evidence suggests that assigning layer-specific learning rates can accelerate training, a principled understanding of the conditions and mechanisms under which non-uniform learning rates are beneficial remains limited. In this work, we investigate non-uniform learning rates through the lens of Stackelberg optimization. Specifically, we demonstrate that training neural networks with a smaller learning rate for the body layers and a larger learning rate for the final layer can be interpreted as a two-time-scale alternating gradient descent algorithm applied to a Stackelberg reformulation of the original objective. We establish finite-time convergence guarantees for the algorithm under broad conditions that accommodate constraint sets and non-smooth activation functions. Beyond convergence, we identify two mechanisms by which non-uniform learning rates can outperform uniform learning rates: (i) we show that certain problem instances induce a Stackelberg objective with stronger optimization structure than the original objective, yielding faster convergence to globally optimal solutions, (ii) our numerical analysis reveals that the Stackelberg objective can exhibit substantially sharper local curvature, especially in early training, which leads to more informative gradients and learning acceleration. Experiments in supervised learning and reinforcement learning support our findings.
- Abstract(参考訳): ニューラルネットワークは通常、すべての層にわたる単一の学習率でトレーニングされる。
最近の実証的な証拠は、レイヤー固有の学習率の割り当てが訓練を加速することを示しているが、非一様学習率が有益である条件やメカニズムの原則的理解は依然として限られている。
そこで本研究では,Stackelberg最適化のレンズによる非一様学習率について検討する。
具体的には,体層に対する学習率の低いニューラルネットワークと最終層に対する学習率の大きいニューラルネットワークを,スタックルバーグの本来の目的の修正に応用した2段階の交互勾配勾配アルゴリズムとして解釈できることを実証する。
制約セットと非滑らかなアクティベーション関数に対応する広い条件下で,アルゴリズムの有限時間収束保証を確立する。
収束を超えて、一様学習率が一様学習率を上回る2つのメカニズムを同定する。
(i) ある問題インスタンスが元の目的よりも強い最適化構造を持つスタックルバーグ目標を誘導し、世界的最適解へのより高速な収束をもたらすことを示す。
解析の結果,特に早期訓練では,Stackelberg目標の局所曲率が大きく向上し,より情報的勾配や学習速度が向上することが明らかとなった。
教師付き学習と強化学習の実験は,本研究の成果を裏付けるものである。
関連論文リスト
- Statistical physics of deep learning: Optimal learning of a multi-layer perceptron near interpolation [7.079039376205091]
多層パーセプトロンの教師あり学習について検討する。
トレーニング可能なパラメータとデータの数が同等となる、困難な状況に注目します。
その単純さにもかかわらず、ベイズ最適設定は、深さ、非線形性、および有限幅がニューラルネットワークにどのように影響するかについての洞察を与える。
論文 参考訳(メタデータ) (2025-10-28T16:44:34Z) - Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning [26.07501953088188]
本研究では,非平衡層固有の初期化分散と学習速度が特徴学習の度合いを決定するかを検討する。
分析の結果,保存量によって学習体制に影響を及ぼすことが示唆された。
我々は、この不均衡なリッチレジームが、深い有限幅ネットワークにおける特徴学習を駆動し、CNNにおける初期層の解釈可能性を促進し、階層データの学習の複雑さを減らし、モジュラー算術の時間を短縮することを示す。
論文 参考訳(メタデータ) (2024-06-10T10:42:37Z) - SLCA: Slow Learner with Classifier Alignment for Continual Learning on a
Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。
Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。
さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文 参考訳(メタデータ) (2023-03-09T08:57:01Z) - Generative Adversarial Imitation Learning with Neural Networks: Global
Optimality and Convergence Rate [122.73276299136568]
ジェネレーティブポリシー模倣学習(GAIL)は、特にニューラルネットワークと組み合わせた場合、実際に非常に成功している。
実験的な成功にもかかわらず、GAILとニューラルネットワークがグローバルな最適解に収束するかどうかは不明だ。
論文 参考訳(メタデータ) (2020-03-08T03:39:36Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。