論文の概要: Why Quantization Improves Generalization: NTK of Binary Weight Neural
Networks
- arxiv url: http://arxiv.org/abs/2206.05916v1
- Date: Mon, 13 Jun 2022 06:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 01:10:30.829088
- Title: Why Quantization Improves Generalization: NTK of Binary Weight Neural
Networks
- Title(参考訳): 量子化が一般化を改善する理由:二元重みニューラルネットワークのNTK
- Authors: Kaiqi Zhang, Ming Yin, Yu-Xiang Wang
- Abstract要約: ニューラルネットワークにおける二分重みを、ラウンドリングの下でのランダム変数とみなし、ニューラルネットワークの異なる層上での分布伝搬について検討する。
本研究では,連続パラメータとスムーズなアクティベーション関数を持つニューラルネットワークである分布伝搬を近似する準ニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 33.08636537654596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantized neural networks have drawn a lot of attention as they reduce the
space and computational complexity during the inference. Moreover, there has
been folklore that quantization acts as an implicit regularizer and thus can
improve the generalizability of neural networks, yet no existing work
formalizes this interesting folklore. In this paper, we take the binary weights
in a neural network as random variables under stochastic rounding, and study
the distribution propagation over different layers in the neural network. We
propose a quasi neural network to approximate the distribution propagation,
which is a neural network with continuous parameters and smooth activation
function. We derive the neural tangent kernel (NTK) for this quasi neural
network, and show that the eigenvalue of NTK decays at approximately
exponential rate, which is comparable to that of Gaussian kernel with
randomized scale. This in turn indicates that the Reproducing Kernel Hilbert
Space (RKHS) of a binary weight neural network covers a strict subset of
functions compared with the one with real value weights. We use experiments to
verify that the quasi neural network we proposed can well approximate binary
weight neural network. Furthermore, binary weight neural network gives a lower
generalization gap compared with real value weight neural network, which is
similar to the difference between Gaussian kernel and Laplace kernel.
- Abstract(参考訳): 量子化されたニューラルネットワークは、推論中の空間と計算の複雑さを減らすため、多くの注目を集めている。
さらに、量子化が暗黙の正則化として作用し、ニューラルネットワークの一般化性を向上させるという伝承もあるが、この興味深い民俗学を定式化する研究は存在しない。
本稿では,ニューラルネットワークの2次重みを確率的ラウンドリングの下でのランダム変数とみなし,ニューラルネットワークの異なる層上の分布分布について検討する。
本研究では,連続パラメータとスムーズなアクティベーション関数を持つニューラルネットワークである分布伝搬を近似する準ニューラルネットワークを提案する。
この準ニューラルネットワークのニューラル・タンジェント・カーネル(NTK)を導出し、ランダム化スケールのガウス・カーネルに匹敵する約指数速度でNTKの固有値が崩壊することを示す。
このことは、双対重みニューラルネットワークの再生カーネルヒルベルト空間(RKHS)が、実値重みを持つものと比較して関数の厳密な部分集合をカバーすることを示している。
提案する擬似ニューラルネットワークがバイナリ重み付きニューラルネットワークを十分に近似できることを検証するために実験を行う。
さらに、二元重みニューラルネットワークは、ガウスカーネルとラプラスカーネルの差に類似した実値重みニューラルネットワークと比較して、より低い一般化ギャップを与える。
関連論文リスト
- Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Sparsity-depth Tradeoff in Infinitely Wide Deep Neural Networks [22.083873334272027]
我々は,スペーサーネットワークが,様々なデータセットの浅い深度で非スパースネットワークより優れていることを観察した。
カーネルリッジ回帰の一般化誤差に関する既存の理論を拡張した。
論文 参考訳(メタデータ) (2023-05-17T20:09:35Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Consistency of Neural Networks with Regularization [0.0]
本稿では,ニューラルネットワークの規則化による一般的な枠組みを提案し,その一貫性を実証する。
双曲関数(Tanh)と整形線形単位(ReLU)の2種類の活性化関数が検討されている。
論文 参考訳(メタデータ) (2022-06-22T23:33:39Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Stochastic Neural Networks with Infinite Width are Deterministic [7.07065078444922]
使用中のニューラルネットワークの主要なタイプであるニューラルネットワークについて研究する。
最適化されたニューラルネットワークの幅が無限大になる傾向があるため、トレーニングセットの予測分散はゼロになる。
論文 参考訳(メタデータ) (2022-01-30T04:52:31Z) - Fourier Neural Networks for Function Approximation [2.840363325289377]
ニューラルネットワークが普遍近似器であることは広く証明されている。
特に、狭いニューラルネットワークが、ディープニューラルネットワークによって実装されている関数を近似するために、ネットワークは指数関数的に多数のニューロンを取ることが証明されている。
論文 参考訳(メタデータ) (2021-10-21T09:30:26Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Deep Kronecker neural networks: A general framework for neural networks
with adaptive activation functions [4.932130498861987]
我々は,適応的アクティベーション機能を持つニューラルネットワークの汎用フレームワークとして,新しいタイプのニューラルネットワークKronecker Neural Network(KNN)を提案する。
適切な条件下では、KNNはフィードフォワードネットワークによる損失よりも早く損失を減少させる。
論文 参考訳(メタデータ) (2021-05-20T04:54:57Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。