論文の概要: Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification
- arxiv url: http://arxiv.org/abs/2011.11256v2
- Date: Sun, 13 Jun 2021 04:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 02:46:01.253259
- Title: Learning Quantized Neural Nets by Coarse Gradient Method for Non-linear
Classification
- Title(参考訳): 非線形分類のための粗勾配法による量子化ニューラルネットワークの学習
- Authors: Ziang Long, Penghang Yin, Jack Xin
- Abstract要約: 特定の単調性を持つSTEのクラスを提案し、量子化されたアクティベーション関数を持つ2層ネットワークのトレーニングへの応用について検討する。
提案したSTEに対して,対応する粗度勾配法が大域最小値に収束することを示し,性能保証を確立する。
- 参考スコア(独自算出の注目度): 3.158346511479111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantized or low-bit neural networks are attractive due to their inference
efficiency. However, training deep neural networks with quantized activations
involves minimizing a discontinuous and piecewise constant loss function. Such
a loss function has zero gradients almost everywhere (a.e.), which makes the
conventional gradient-based algorithms inapplicable. To this end, we study a
novel class of \emph{biased} first-order oracle, termed coarse gradient, for
overcoming the vanished gradient issue. A coarse gradient is generated by
replacing the a.e. zero derivatives of quantized (i.e., stair-case) ReLU
activation composited in the chain rule with some heuristic proxy derivative
called straight-through estimator (STE). Although having been widely used in
training quantized networks empirically, fundamental questions like when and
why the ad-hoc STE trick works, still lacks theoretical understanding. In this
paper, we propose a class of STEs with certain monotonicity, and consider their
applications to the training of a two-linear-layer network with quantized
activation functions for non-linear multi-category classification. We establish
performance guarantees for the proposed STEs by showing that the corresponding
coarse gradient methods converge to the global minimum, which leads to a
perfect classification. Lastly, we present experimental results on synthetic
data as well as MNIST dataset to verify our theoretical findings and
demonstrate the effectiveness of our proposed STEs.
- Abstract(参考訳): 量子化または低ビットニューラルネットワークは、推論効率のために魅力的である。
しかし、量子化されたアクティベーションを持つディープニューラルネットワークのトレーニングには、不連続かつ分割的な定数損失関数の最小化が伴う。
このような損失関数は至る所でゼロ勾配を持つ(つまり、従来の勾配に基づくアルゴリズムは適用できない)。
この目的のために,脱落した勾配問題を克服するために,粗勾配と呼ばれる一階oracleの新たなクラスについて検討した。
粗勾配は、連鎖則で合成された量子化された(階段)ReLUのゼロ誘導体をストレートスルー推定器(STE)と呼ばれるヒューリスティックなプロキシ誘導体で置き換えることで生成される。
量子化されたネットワークのトレーニングに広く使われてきたが、いつ、なぜアドホックなSTEトリックが機能するのかといった根本的な疑問は理論的な理解に欠けていた。
本稿では,特定の単調性を持つstesのクラスを提案し,非線形マルチカテゴリ分類のための量子化活性化関数を持つ2層ネットワークの学習への応用について検討する。
提案するsteの性能保証は,対応する粗勾配法が大域的最小値に収束し,完全分類となることを示すことによって確立する。
最後に, 合成データおよびMNISTデータセットに関する実験結果について, 理論的知見を検証し, 提案したSTEの有効性を示す。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Convergence and Implicit Regularization Properties of Gradient Descent
for Deep Residual Networks [7.090165638014331]
一定の層幅とスムーズな活性化関数を持つ深層残留ネットワークのトレーニングにおいて,勾配勾配の線形収束性を大域最小限に証明する。
トレーニングされた重みは、層指数の関数として、ネットワークの深さが無限大になる傾向にあるため、H"古い"スケーリング制限が連続であることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:50:28Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。