論文の概要: The Feature Speed Formula: a flexible approach to scale hyper-parameters of deep neural networks
- arxiv url: http://arxiv.org/abs/2311.18718v3
- Date: Sat, 22 Jun 2024 07:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 02:42:42.802927
- Title: The Feature Speed Formula: a flexible approach to scale hyper-parameters of deep neural networks
- Title(参考訳): Feature Speed Formula: ディープニューラルネットワークのハイパーパラメータ拡張のためのフレキシブルアプローチ
- Authors: Lénaïc Chizat, Praneeth Netrapalli,
- Abstract要約: 機能更新と後方パスの間の角度$theta_ell$を予測し、制御するための重要な概念を紹介します。
1つのGDステップ後の機能更新の規模は、任意のトレーニング時間において、単純で一般的なエンフェチュア・スピード・フォーミュラで表現できることが示される。
- 参考スコア(独自算出の注目度): 27.666992667126053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning succeeds by doing hierarchical feature learning, yet tuning hyper-parameters (HP) such as initialization scales, learning rates etc., only give indirect control over this behavior. In this paper, we introduce a key notion to predict and control feature learning: the angle $\theta_\ell$ between the feature updates and the backward pass (at layer index $\ell$). We show that the magnitude of feature updates after one GD step, at any training time, can be expressed via a simple and general \emph{feature speed formula} in terms of this angle $\theta_\ell$, the loss decay, and the magnitude of the backward pass. This angle $\theta_\ell$ is controlled by the conditioning of the layer-to-layer Jacobians and at random initialization, it is determined by the spectrum of a certain kernel, which coincides with the Neural Tangent Kernel when $\ell=\text{depth}$. Given $\theta_\ell$, the feature speed formula provides us with rules to adjust HPs (scales and learning rates) so as to satisfy certain dynamical properties, such as feature learning and loss decay. We investigate the implications of our approach for ReLU MLPs and ResNets in the large width-then-depth limit. Relying on prior work, we show that in ReLU MLPs with iid initialization, the angle degenerates with depth as $\cos(\theta_\ell)=\Theta(1/\sqrt{\ell})$. In contrast, ResNets with branch scale $O(1/\sqrt{\text{depth}})$ maintain a non-degenerate angle $\cos(\theta_\ell)=\Theta(1)$. We use these insights to recover key properties of known HP scalings and also to introduce a new HP scaling for large depth ReLU MLPs with favorable theoretical properties.
- Abstract(参考訳): ディープラーニングは階層的な特徴学習によって成功するが、初期化スケールや学習率などのハイパーパラメータ(HP)のチューニングは、この振る舞いを間接的に制御するだけである。
本稿では,機能更新と後方パスの間の角度$\theta_\ell$(層インデックス$\ell$)を予測し,制御するための重要な概念を紹介する。
この角度$\theta_\ell$, 損失減衰, 後方通過の大きさから, 任意のトレーニング時間において, 任意のGDステップ後の特徴更新の程度を, 単純かつ一般の \emph{feature speed formula} で表すことができることを示す。
この角 $\theta_\ell$ は層から層へのヤコビアンの条件付けとランダム初期化によって制御され、あるカーネルのスペクトルによって決定される。
Theta_\ell$が与えられたとき、特徴速度公式はHP(スケールと学習率)を調整し、特徴学習や損失減衰といった特定の力学特性を満たすためのルールを提供する。
本研究では,ReLU MLPとResNetの広帯域幅幅幅制限に対するアプローチの有効性について検討する。
先行研究に基づき、 iid 初期化を伴う ReLU MLP において、角度は $\cos(\theta_\ell)=\Theta(1/\sqrt{\ell})$ で縮退することを示す。
対照的に、ブランチスケール $O(1/\sqrt{\text{depth}})$ の ResNets は非退化角 $\cos(\theta_\ell)=\Theta(1)$ を維持する。
我々はこれらの知見を用いて、既知のHPスケーリングの重要な特性を復元し、また、理論的性質が好ましい大深度ReLU MLPのための新しいHPスケーリングを導入する。
関連論文リスト
- MLPs at the EOC: Dynamics of Feature Learning [8.430481660019451]
本稿では,勾配降下の収束とそれに伴う特徴の学習を説明する理論を提案する。
このような理論は、安定の端(EOS)やカタパルト機構など、実践者が観察する現象もカバーすべきである。
論文 参考訳(メタデータ) (2025-02-18T18:23:33Z) - The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
我々は、ResNets(tildeLtoinfty$)とFully-Connected nets(tildeLtoinfty$)の間を補間するLeaky ResNetsを研究する。
無限深度極限において、'representation geodesics'の$A_p$:continuous paths in representation space(NeuralODEsに類似)を研究する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Recasting Self-Attention with Holographic Reduced Representations [31.89878931813593]
マルウェア検出の問題に触発された我々は,ホログラフィックリダクション(HRR)のニューロシンボリックアプローチを用いて,自己アテンションを再キャストする。
我々は、 $mathcalO(T H log H)$ time complexity, $mathcalO(T H)$ space complexity, and convergence in 10times$ less epochs などの利点を得る。
我々のHrrformerはLRAベンチマークでほぼ最先端の精度を実現しています。
論文 参考訳(メタデータ) (2023-05-31T03:42:38Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。