Fugu-MT 論文翻訳(概要): Steering Deep Feature Learning with Backward Aligned Feature Updates

論文の概要: Steering Deep Feature Learning with Backward Aligned Feature Updates

arxiv url: http://arxiv.org/abs/2311.18718v1
Date: Thu, 30 Nov 2023 17:19:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 15:48:58.097461
Title: Steering Deep Feature Learning with Backward Aligned Feature Updates
Title（参考訳）: 後方対応機能アップデートによるDeep Feature Learningのステアリング
Authors: L\'ena\"ic Chizat and Praneeth Netrapalli
Abstract要約: 特徴学習を予測,測定,制御するための重要な概念として,機能更新と後方パスの整合性を提案する。広帯域領域におけるReLUとResNetについて検討する。
参考スコア（独自算出の注目度）: 28.23939405085225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning succeeds by doing hierarchical feature learning, yet tuning Hyper-Parameters (HP) such as initialization scales, learning rates etc., only give indirect control over this behavior. In this paper, we propose the alignment between the feature updates and the backward pass as a key notion to predict, measure and control feature learning. On the one hand, we show that when alignment holds, the magnitude of feature updates after one SGD step is related to the magnitude of the forward and backward passes by a simple and general formula. This leads to techniques to automatically adjust HPs (initialization scales and learning rates) at initialization and throughout training to attain a desired feature learning behavior. On the other hand, we show that, at random initialization, this alignment is determined by the spectrum of a certain kernel, and that well-conditioned layer-to-layer Jacobians (aka dynamical isometry) implies alignment. Finally, we investigate ReLU MLPs and ResNets in the large width-then-depth limit. Combining hints from random matrix theory and numerical experiments, we show that (i) in MLP with iid initializations, alignment degenerates with depth, making it impossible to start training, and that (ii) in ResNets, the branch scale $1/\sqrt{\text{depth}}$ is the only one maintaining non-trivial alignment at infinite depth.
Abstract（参考訳）: ディープラーニングは階層的な特徴学習によって成功するが、初期化スケールや学習率などのハイパーパラメータ(HP)を調整することで、この振る舞いを間接的に制御できる。本稿では,特徴の学習を予測,測定,制御するための重要な概念として,特徴更新と後方パスの整合性を提案する。一方,アライメントが成立すると,一つのsgdステップ後の特徴更新の大きさは,単純で一般的な公式による前方および後方通過の大きさと関係していることが示された。これにより、初期化とトレーニングを通じてhps(初期化スケールと学習率)を自動的に調整し、望ましい特徴学習行動を達成する技術が生まれる。一方、ランダム初期化では、このアライメントはある核のスペクトルによって決定され、よく条件付けられた層対層ジャコビアン(動的等長法)はアライメントを意味する。最後に,relu mlpsとresnetsを広幅・奥行き限界で検討する。ランダム行列理論と数値実験のヒントを組み合わせることで i) iid初期化を伴うMDPでは、アライメントは深度で縮退し、トレーニングの開始が不可能となる。 (ii) ResNets では、分岐スケール $1/\sqrt{\text{depth}}$ は無限の深さで非自明なアライメントを維持する唯一のものである。

関連論文リスト

MLPs at the EOC: Dynamics of Feature Learning [8.430481660019451]
本稿では,勾配降下の収束とそれに伴う特徴の学習を説明する理論を提案する。このような理論は、安定の端(EOS)やカタパルト機構など、実践者が観察する現象もカバーすべきである。
論文参考訳（メタデータ） (2025-02-18T18:23:33Z)
The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2024-10-06T22:30:14Z)
Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
我々は、ResNets(tildeLtoinfty$)とFully-Connected nets(tildeLtoinfty$)の間を補間するLeaky ResNetsを研究する。無限深度極限において、'representation geodesics'の$A_p$:continuous paths in representation space(NeuralODEsに類似)を研究する。この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文参考訳（メタデータ） (2024-05-27T18:15:05Z)
Recasting Self-Attention with Holographic Reduced Representations [31.89878931813593]
マルウェア検出の問題に触発された我々は,ホログラフィックリダクション(HRR)のニューロシンボリックアプローチを用いて,自己アテンションを再キャストする。我々は、 $mathcalO(T H log H)$ time complexity, $mathcalO(T H)$ space complexity, and convergence in 10times$ less epochs などの利点を得る。我々のHrrformerはLRAベンチマークでほぼ最先端の精度を実現しています。
論文参考訳（メタデータ） (2023-05-31T03:42:38Z)
Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文参考訳（メタデータ） (2023-05-13T01:10:49Z)
Understanding Deep Neural Function Approximation in Reinforcement Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文参考訳（メタデータ） (2022-09-15T15:42:47Z)
High-dimensional Asymptotics of Feature Learning: How One Gradient Step Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文参考訳（メタデータ） (2022-05-03T12:09:59Z)
Entanglement scaling for $\lambda\phi_2^4$ [0.0]
次数パラメータ$phi$、相関長$xi$、および$phi3$のような量と絡み合いエントロピーが有用な二重スケーリング特性を示すことを示す。臨界点に対して$alpha_c=11.09698(31)$という値が見つかる。
論文参考訳（メタデータ） (2021-04-21T14:43:12Z)
Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。 $ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文参考訳（メタデータ） (2020-08-06T07:33:17Z)
Provably Efficient Reinforcement Learning for Discounted MDPs with Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文参考訳（メタデータ） (2020-06-23T17:08:54Z)
Backward Feature Correction: How Deep Learning Performs Deep (Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文参考訳（メタデータ） (2020-01-13T17:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。