論文の概要: Steering Deep Feature Learning with Backward Aligned Feature Updates
- arxiv url: http://arxiv.org/abs/2311.18718v1
- Date: Thu, 30 Nov 2023 17:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 15:48:58.097461
- Title: Steering Deep Feature Learning with Backward Aligned Feature Updates
- Title(参考訳): 後方対応機能アップデートによるDeep Feature Learningのステアリング
- Authors: L\'ena\"ic Chizat and Praneeth Netrapalli
- Abstract要約: 特徴学習を予測,測定,制御するための重要な概念として,機能更新と後方パスの整合性を提案する。
広帯域領域におけるReLUとResNetについて検討する。
- 参考スコア(独自算出の注目度): 28.23939405085225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning succeeds by doing hierarchical feature learning, yet tuning
Hyper-Parameters (HP) such as initialization scales, learning rates etc., only
give indirect control over this behavior. In this paper, we propose the
alignment between the feature updates and the backward pass as a key notion to
predict, measure and control feature learning. On the one hand, we show that
when alignment holds, the magnitude of feature updates after one SGD step is
related to the magnitude of the forward and backward passes by a simple and
general formula. This leads to techniques to automatically adjust HPs
(initialization scales and learning rates) at initialization and throughout
training to attain a desired feature learning behavior. On the other hand, we
show that, at random initialization, this alignment is determined by the
spectrum of a certain kernel, and that well-conditioned layer-to-layer
Jacobians (aka dynamical isometry) implies alignment. Finally, we investigate
ReLU MLPs and ResNets in the large width-then-depth limit. Combining hints from
random matrix theory and numerical experiments, we show that (i) in MLP with
iid initializations, alignment degenerates with depth, making it impossible to
start training, and that (ii) in ResNets, the branch scale
$1/\sqrt{\text{depth}}$ is the only one maintaining non-trivial alignment at
infinite depth.
- Abstract(参考訳): ディープラーニングは階層的な特徴学習によって成功するが、初期化スケールや学習率などのハイパーパラメータ(HP)を調整することで、この振る舞いを間接的に制御できる。
本稿では,特徴の学習を予測,測定,制御するための重要な概念として,特徴更新と後方パスの整合性を提案する。
一方,アライメントが成立すると,一つのsgdステップ後の特徴更新の大きさは,単純で一般的な公式による前方および後方通過の大きさと関係していることが示された。
これにより、初期化とトレーニングを通じてhps(初期化スケールと学習率)を自動的に調整し、望ましい特徴学習行動を達成する技術が生まれる。
一方、ランダム初期化では、このアライメントはある核のスペクトルによって決定され、よく条件付けられた層対層ジャコビアン(動的等長法)はアライメントを意味する。
最後に,relu mlpsとresnetsを広幅・奥行き限界で検討する。
ランダム行列理論と数値実験のヒントを組み合わせることで
i) iid初期化を伴うMDPでは、アライメントは深度で縮退し、トレーニングの開始が不可能となる。
(ii) ResNets では、分岐スケール $1/\sqrt{\text{depth}}$ は無限の深さで非自明なアライメントを維持する唯一のものである。
関連論文リスト
- The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
我々は、ResNets(tildeLtoinfty$)とFully-Connected nets(tildeLtoinfty$)の間を補間するLeaky ResNetsを研究する。
無限深度極限において、'representation geodesics'の$A_p$:continuous paths in representation space(NeuralODEsに類似)を研究する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Recasting Self-Attention with Holographic Reduced Representations [31.89878931813593]
マルウェア検出の問題に触発された我々は,ホログラフィックリダクション(HRR)のニューロシンボリックアプローチを用いて,自己アテンションを再キャストする。
我々は、 $mathcalO(T H log H)$ time complexity, $mathcalO(T H)$ space complexity, and convergence in 10times$ less epochs などの利点を得る。
我々のHrrformerはLRAベンチマークでほぼ最先端の精度を実現しています。
論文 参考訳(メタデータ) (2023-05-31T03:42:38Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Entanglement scaling for $\lambda\phi_2^4$ [0.0]
次数パラメータ$phi$、相関長$xi$、および$phi3$のような量と絡み合いエントロピーが有用な二重スケーリング特性を示すことを示す。
臨界点に対して$alpha_c=11.09698(31)$という値が見つかる。
論文 参考訳(メタデータ) (2021-04-21T14:43:12Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。