Fugu-MT 論文翻訳(概要): How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks

論文の概要: How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks

arxiv url: http://arxiv.org/abs/2406.01766v2
Date: Mon, 04 Nov 2024 23:02:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.218451
Title: How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks
Title（参考訳）: 定常二層ニューラルネットワークの局所解析
Authors: Mo Zhou, Rong Ge,
Abstract要約: 有用な特徴を学習する能力は、ニューラルネットワークの大きな利点の1つだ。最近の研究は、ニューラルネットワークが機能学習を許さないニューラルネットワークカーネル(NTK)で動作可能であることを示している。
参考スコア（独自算出の注目度）: 18.809547338077905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability of learning useful features is one of the major advantages of neural networks. Although recent works show that neural network can operate in a neural tangent kernel (NTK) regime that does not allow feature learning, many works also demonstrate the potential for neural networks to go beyond NTK regime and perform feature learning. Recently, a line of work highlighted the feature learning capabilities of the early stages of gradient-based training. In this paper we consider another mechanism for feature learning via gradient descent through a local convergence analysis. We show that once the loss is below a certain threshold, gradient descent with a carefully regularized objective will capture ground-truth directions. We further strengthen this local convergence analysis by incorporating early-stage feature learning analysis. Our results demonstrate that feature learning not only happens at the initial gradient steps, but can also occur towards the end of training.
Abstract（参考訳）: 有用な特徴を学習する能力は、ニューラルネットワークの大きな利点の1つだ。最近の研究は、ニューラルネットワークが機能学習を許さないニューラルタンジェントカーネル(NTK)で動作可能であることを示しているが、多くの研究は、ニューラルネットワークがNTKレギュレーションを超えて機能学習を行う可能性も示している。最近、一連の研究は、勾配に基づくトレーニングの初期段階における特徴学習能力を強調した。本稿では,局所収束解析による勾配降下による特徴学習の別のメカニズムについて考察する。損失が一定の閾値以下になると、慎重に規則化された目標を持つ勾配降下が地道方向を捉えていることが示される。我々は、この局所収束分析をさらに強化し、早期特徴学習分析を取り入れた。以上の結果から,機能学習は最初の段階だけでなく,訓練の終わりにも起こりうることが示唆された。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文参考訳（メタデータ） (2024-04-07T08:07:02Z)
Provable Guarantees for Neural Networks via Gradient Feature Learning [15.413985018920018]
本研究では,勾配降下法により学習した2層ネットワークの統一解析フレームワークを提案する。このフレームワークは、特徴学習の原理を原型的勾配から中心とし、その有効性はいくつかの問題における応用によって実証されている。
論文参考訳（メタデータ） (2023-10-19T01:45:37Z)
A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks [43.281323350357404]
機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つであると考えられている。サンプルサイズとともに成長する学習率によって、このようなトレーニングが実際に複数のランクワンコンポーネントを導入していることを示す。
論文参考訳（メタデータ） (2023-10-11T20:55:02Z)
Graph Neural Networks Provably Benefit from Structural Information: A Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文参考訳（メタデータ） (2023-06-24T10:21:11Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
The Connection Between Approximation, Depth Separation and Learnability in Neural Networks [70.55686685872008]
学習可能性と近似能力の関係について検討する。対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。
論文参考訳（メタデータ） (2021-01-31T11:32:30Z)
Training Convolutional Neural Networks With Hebbian Principal Component Analysis [10.026753669198108]
ヘブリアン学習は、ニューラルネットワークの下層または高層を訓練するために使用することができる。私たちは、HWTA(Hebbian Winner Takes All)戦略の代わりに、非線形のHebbianプリンシパルコンポーネント分析(HPCA)学習ルールを使用します。特にHPCAルールは、CIFAR-10イメージデータセットから関連する特徴を抽出するために、畳み込みニューラルネットワークのトレーニングに使用される。
論文参考訳（メタデータ） (2020-12-22T18:17:46Z)
Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文参考訳（メタデータ） (2020-11-18T18:52:08Z)
A Generalized Neural Tangent Kernel Analysis for Two-layer Neural Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。これは、トレーニング損失が一定の精度まで線形に収束することを意味する。また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文参考訳（メタデータ） (2020-02-10T18:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。