論文の概要: Why Quantization Improves Generalization: NTK of Binary Weight Neural
Networks
- arxiv url: http://arxiv.org/abs/2206.05916v1
- Date: Mon, 13 Jun 2022 06:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 01:10:30.829088
- Title: Why Quantization Improves Generalization: NTK of Binary Weight Neural
Networks
- Title(参考訳): 量子化が一般化を改善する理由:二元重みニューラルネットワークのNTK
- Authors: Kaiqi Zhang, Ming Yin, Yu-Xiang Wang
- Abstract要約: ニューラルネットワークにおける二分重みを、ラウンドリングの下でのランダム変数とみなし、ニューラルネットワークの異なる層上での分布伝搬について検討する。
本研究では,連続パラメータとスムーズなアクティベーション関数を持つニューラルネットワークである分布伝搬を近似する準ニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 33.08636537654596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantized neural networks have drawn a lot of attention as they reduce the
space and computational complexity during the inference. Moreover, there has
been folklore that quantization acts as an implicit regularizer and thus can
improve the generalizability of neural networks, yet no existing work
formalizes this interesting folklore. In this paper, we take the binary weights
in a neural network as random variables under stochastic rounding, and study
the distribution propagation over different layers in the neural network. We
propose a quasi neural network to approximate the distribution propagation,
which is a neural network with continuous parameters and smooth activation
function. We derive the neural tangent kernel (NTK) for this quasi neural
network, and show that the eigenvalue of NTK decays at approximately
exponential rate, which is comparable to that of Gaussian kernel with
randomized scale. This in turn indicates that the Reproducing Kernel Hilbert
Space (RKHS) of a binary weight neural network covers a strict subset of
functions compared with the one with real value weights. We use experiments to
verify that the quasi neural network we proposed can well approximate binary
weight neural network. Furthermore, binary weight neural network gives a lower
generalization gap compared with real value weight neural network, which is
similar to the difference between Gaussian kernel and Laplace kernel.
- Abstract(参考訳): 量子化されたニューラルネットワークは、推論中の空間と計算の複雑さを減らすため、多くの注目を集めている。
さらに、量子化が暗黙の正則化として作用し、ニューラルネットワークの一般化性を向上させるという伝承もあるが、この興味深い民俗学を定式化する研究は存在しない。
本稿では,ニューラルネットワークの2次重みを確率的ラウンドリングの下でのランダム変数とみなし,ニューラルネットワークの異なる層上の分布分布について検討する。
本研究では,連続パラメータとスムーズなアクティベーション関数を持つニューラルネットワークである分布伝搬を近似する準ニューラルネットワークを提案する。
この準ニューラルネットワークのニューラル・タンジェント・カーネル(NTK)を導出し、ランダム化スケールのガウス・カーネルに匹敵する約指数速度でNTKの固有値が崩壊することを示す。
このことは、双対重みニューラルネットワークの再生カーネルヒルベルト空間(RKHS)が、実値重みを持つものと比較して関数の厳密な部分集合をカバーすることを示している。
提案する擬似ニューラルネットワークがバイナリ重み付きニューラルネットワークを十分に近似できることを検証するために実験を行う。
さらに、二元重みニューラルネットワークは、ガウスカーネルとラプラスカーネルの差に類似した実値重みニューラルネットワークと比較して、より低い一般化ギャップを与える。
関連論文リスト
- Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Consistency of Neural Networks with Regularization [0.0]
本稿では,ニューラルネットワークの規則化による一般的な枠組みを提案し,その一貫性を実証する。
双曲関数(Tanh)と整形線形単位(ReLU)の2種類の活性化関数が検討されている。
論文 参考訳(メタデータ) (2022-06-22T23:33:39Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Stochastic Neural Networks with Infinite Width are Deterministic [7.07065078444922]
使用中のニューラルネットワークの主要なタイプであるニューラルネットワークについて研究する。
最適化されたニューラルネットワークの幅が無限大になる傾向があるため、トレーニングセットの予測分散はゼロになる。
論文 参考訳(メタデータ) (2022-01-30T04:52:31Z) - Fourier Neural Networks for Function Approximation [2.840363325289377]
ニューラルネットワークが普遍近似器であることは広く証明されている。
特に、狭いニューラルネットワークが、ディープニューラルネットワークによって実装されている関数を近似するために、ネットワークは指数関数的に多数のニューロンを取ることが証明されている。
論文 参考訳(メタデータ) (2021-10-21T09:30:26Z) - Deep Kronecker neural networks: A general framework for neural networks
with adaptive activation functions [4.932130498861987]
我々は,適応的アクティベーション機能を持つニューラルネットワークの汎用フレームワークとして,新しいタイプのニューラルネットワークKronecker Neural Network(KNN)を提案する。
適切な条件下では、KNNはフィードフォワードネットワークによる損失よりも早く損失を減少させる。
論文 参考訳(メタデータ) (2021-05-20T04:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。