論文の概要: A generalized neural tangent kernel for surrogate gradient learning
- arxiv url: http://arxiv.org/abs/2405.15539v1
- Date: Fri, 24 May 2024 13:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:59:53.579464
- Title: A generalized neural tangent kernel for surrogate gradient learning
- Title(参考訳): 代用勾配学習のための一般化されたニューラルネットワークカーネル
- Authors: Luke Eilers, Raoul-Martin Memmesheimer, Sven Goedeke,
- Abstract要約: 我々は、代理勾配学習(SGL)の分析を可能にする、ニューラルタンジェントカーネル(NTK)の一般化を提供する。
符号アクティベーション関数と有限幅のネットワークにおけるSGLを、サロゲート勾配NTKと比較して数値的に比較する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art neural network training methods depend on the gradient of the network function. Therefore, they cannot be applied to networks whose activation functions do not have useful derivatives, such as binary and discrete-time spiking neural networks. To overcome this problem, the activation function's derivative is commonly substituted with a surrogate derivative, giving rise to surrogate gradient learning (SGL). This method works well in practice but lacks theoretical foundation. The neural tangent kernel (NTK) has proven successful in the analysis of gradient descent. Here, we provide a generalization of the NTK, which we call the surrogate gradient NTK, that enables the analysis of SGL. First, we study a naive extension of the NTK to activation functions with jumps, demonstrating that gradient descent for such activation functions is also ill-posed in the infinite-width limit. To address this problem, we generalize the NTK to gradient descent with surrogate derivatives, i.e., SGL. We carefully define this generalization and expand the existing key theorems on the NTK with mathematical rigor. Further, we illustrate our findings with numerical experiments. Finally, we numerically compare SGL in networks with sign activation function and finite width to kernel regression with the surrogate gradient NTK; the results confirm that the surrogate gradient NTK provides a good characterization of SGL.
- Abstract(参考訳): 最先端のニューラルネットワークトレーニング手法は、ネットワーク機能の勾配に依存する。
したがって、活性化関数が二分性や離散時間スパイクニューラルネットワークのような有用な微分を持たないネットワークには適用できない。
この問題を解決するために、活性化関数の導関数は一般に代理微分に置換され、代理勾配学習(SGL)を引き起こす。
この方法は実際はうまく機能するが、理論的な基礎が欠如している。
神経タンジェント核(NTK)は勾配降下の解析に成功している。
ここでは、シュロゲート勾配 NTK と呼ばれる NTK の一般化を提供し、SGL の解析を可能にする。
まず、ジャンプを伴う活性化関数に対するNTKの素性拡張について検討し、そのような活性化関数の勾配降下も無限幅極限に悪影響を及ぼすことを示した。
この問題に対処するために、NTK をシュロゲート微分、すなわち SGL で勾配降下に一般化する。
我々は、この一般化を慎重に定義し、NTK上の既存の鍵定理を数学的厳密さで拡張する。
さらに,本研究の成果を数値実験で示す。
最後に、符号活性化関数と有限幅のネットワークにおけるSGLと、サロゲート勾配NTKとを数値的に比較し、サロゲート勾配NTKがSGLの優れた特性を提供することを確認した。
関連論文リスト
- Is Solving Graph Neural Tangent Kernel Equivalent to Training Graph
Neural Network? [9.599018775881275]
理論的深層学習の傾向は、なぜニューラルタンジェントカーネル(NTK) [jgh18]を介してディープラーニングが機能するのかを理解することである。
GNTKは,多層ニューラルネットワークのトレーニングに勾配勾配を用いたカーネル手法である。
GNTKは各種バイオインフォマティクスデータセットのGNNと同様の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-14T06:24:33Z) - Controlling the Inductive Bias of Wide Neural Networks by Modifying the Kernel's Spectrum [18.10812063219831]
所望の固有値を持つカーネルに改良スペクトルカーネル(MSK)を導入する。
本研究では,勾配勾配の軌道を変化させる事前条件付き勾配降下法を提案する。
私たちの手法は計算効率が良く、実装も簡単です。
論文 参考訳(メタデータ) (2023-07-26T22:39:47Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Identifying good directions to escape the NTK regime and efficiently
learn low-degree plus sparse polynomials [52.11466135206223]
広帯域2層ニューラルネットワークはターゲット関数に適合するためにTangent Kernel(NTK)とQuadNTKを併用可能であることを示す。
これにより、終端収束が得られ、NTKとQuadNTKの双方に対して証明可能なサンプル改善が保証される。
論文 参考訳(メタデータ) (2022-06-08T06:06:51Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - A proof of convergence for gradient descent in the training of
artificial neural networks for constant target functions [3.4792548480344254]
勾配降下法のリスク関数は, 実際に0に収束することを示す。
この作業の重要な貢献は、ANNパラメータの勾配フローシステムのLyapunov関数を明示的に指定することです。
論文 参考訳(メタデータ) (2021-02-19T13:33:03Z) - Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification [3.158346511479111]
特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
論文 参考訳(メタデータ) (2020-11-23T07:50:09Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。