論文の概要: NTK-SAP: Improving neural network pruning by aligning training dynamics
- arxiv url: http://arxiv.org/abs/2304.02840v1
- Date: Thu, 6 Apr 2023 03:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 15:23:47.615554
- Title: NTK-SAP: Improving neural network pruning by aligning training dynamics
- Title(参考訳): NTK-SAP:トレーニングダイナミクスの整列によるニューラルネットワークプルーニングの改善
- Authors: Yite Wang, Dawei Li, Ruoyu Sun
- Abstract要約: ニューラルカーネル(NTK)理論の最近の進歩は、十分に大きなニューラルネットワークのトレーニング力学が、NTKのスペクトルと密接に関連していることを示唆している。
我々はNTKのスペクトルに最も影響の少ない接続をプルークする。
我々は、先見的なプルーニングアルゴリズム、Neural Kernel Spectrum-Aware Pruning (NTK-SAP) を命名する。
- 参考スコア(独自算出の注目度): 13.887349224871045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning neural networks before training has received increasing interest due
to its potential to reduce training time and memory. One popular method is to
prune the connections based on a certain metric, but it is not entirely clear
what metric is the best choice. Recent advances in neural tangent kernel (NTK)
theory suggest that the training dynamics of large enough neural networks is
closely related to the spectrum of the NTK. Motivated by this finding, we
propose to prune the connections that have the least influence on the spectrum
of the NTK. This method can help maintain the NTK spectrum, which may help
align the training dynamics to that of its dense counterpart. However, one
possible issue is that the fixed-weight-NTK corresponding to a given initial
point can be very different from the NTK corresponding to later iterates during
the training phase. We further propose to sample multiple realizations of
random weights to estimate the NTK spectrum. Note that our approach is
weight-agnostic, which is different from most existing methods that are
weight-dependent. In addition, we use random inputs to compute the
fixed-weight-NTK, making our method data-agnostic as well. We name our
foresight pruning algorithm Neural Tangent Kernel Spectrum-Aware Pruning
(NTK-SAP). Empirically, our method achieves better performance than all
baselines on multiple datasets.
- Abstract(参考訳): トレーニング前のニューラルネットワークのプルーニングは、トレーニング時間とメモリの削減の可能性から、関心を集めている。
一般的な方法の一つは、ある計量に基づいて接続を振る舞うことであるが、どの計量が最良の選択であるかは明らかになっていない。
ニューラル・タンジェント・カーネル(NTK)理論の最近の進歩は、十分に大きなニューラルネットワークのトレーニング力学がNTKのスペクトルと密接に関連していることを示している。
この発見を動機として,NTKのスペクトルに最も影響の少ない接続を創り出すことを提案する。
この方法はNTKスペクトルの維持に役立ち、トレーニングのダイナミクスをその密度の高いスペクトルと整合させるのに役立つ。
しかし、ある初期点に対応する固定重量NTKは、トレーニングフェーズ中に後続の反復に対応するNTKとは大きく異なる可能性がある。
さらに,ランダム重みの多重実現をサンプリングし,ntkスペクトルを推定する。
われわれのアプローチは重みに依存している既存の方法とは異なる重みに依存しない。
さらに、ランダムな入力を用いて固定重み付きNTKを計算し、この手法もデータに依存しない。
我々は,このアルゴリズムをNTK-SAP (Neural Tangent Kernel Spectrum-Aware Pruning) と呼ぶ。
実験により,本手法は複数のデータセット上のすべてのベースラインよりも優れた性能を実現する。
関連論文リスト
- Finding Lottery Tickets in Vision Models via Data-driven Spectral Foresight Pruning [14.792099973449794]
本稿では,スパースネットワークのトレーニングダイナミクスと高密度ネットワークのトレーニングダイナミクスを一致させるアルゴリズムを提案する。
NTKスペクトルにおける通常無視されるデータ依存成分がどのように考慮されるかを示す。
パスeXclusion(PX)は、高頻度でも宝くじを見つけることができる。
論文 参考訳(メタデータ) (2024-06-03T22:19:42Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Understanding Sparse Feature Updates in Deep Networks using Iterative
Linearisation [2.33877878310217]
本稿では,より大規模で深いネットワークが一般化する理由を解明する実験ツールとして,反復線形化学習法を考案する。
様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同程度に驚くほど機能することを示す。
また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
論文 参考訳(メタデータ) (2022-11-22T15:34:59Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - When and why PINNs fail to train: A neural tangent kernel perspective [2.1485350418225244]
PINNのニューラルタンジェントカーネル(NTK)を導出し、適切な条件下では、無限幅極限でのトレーニング中に一定となる決定論的カーネルに収束することを示す。
学習誤差の総和に寄与する損失成分の収束率に顕著な差があることが判明した。
本研究では,NTKの固有値を用いて学習誤差の収束率を適応的に調整する勾配降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-28T23:44:56Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。