論文の概要: Depth Dependence of $\mu$P Learning Rates in ReLU MLPs
- arxiv url: http://arxiv.org/abs/2305.07810v1
- Date: Sat, 13 May 2023 01:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:37:44.987399
- Title: Depth Dependence of $\mu$P Learning Rates in ReLU MLPs
- Title(参考訳): ReLU MLPにおける$\mu$P学習率の深さ依存性
- Authors: Samy Jelassi, Boris Hanin, Ziwei Ji, Sashank J. Reddi, Srinadh
Bhojanapalli, Sanjiv Kumar
- Abstract要約: 我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
- 参考スコア(独自算出の注目度): 72.14317069090407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this short note we consider random fully connected ReLU networks of width
$n$ and depth $L$ equipped with a mean-field weight initialization. Our purpose
is to study the dependence on $n$ and $L$ of the maximal update ($\mu$P)
learning rate, the largest learning rate for which the mean squared change in
pre-activations after one step of gradient descent remains uniformly bounded at
large $n,L$. As in prior work on $\mu$P of Yang et. al., we find that this
maximal update learning rate is independent of $n$ for all but the first and
last layer weights. However, we find that it has a non-trivial dependence of
$L$, scaling like $L^{-3/2}.$
- Abstract(参考訳): 本稿では、平均フィールド重み初期化を備えた幅$n$と深さ$L$のランダム完全連結ReLUネットワークについて考察する。
我々の目的は、最大更新(\mu$p)学習率のn$とl$への依存を調べることである。
yang et の $\mu$p に関する先行研究と同じように。
この最大更新学習率は、第1層と第2層の重みを除いて、すべて$n$とは独立している。
しかし、それは非自明な$l$依存性を持ち、$l^{-3/2}のようにスケーリングする。
$
関連論文リスト
- Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Maximal Initial Learning Rates in Deep ReLU Networks [32.157430904535126]
最大初等学習率$etaast$を導入する。
定幅完全接続型ReLUネットワークでは,学習後の最大学習率とは,$etaast$が異なる動作を示す。
論文 参考訳(メタデータ) (2022-12-14T15:58:37Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。