論文の概要: Training Quantised Neural Networks with STE Variants: the Additive Noise
Annealing Algorithm
- arxiv url: http://arxiv.org/abs/2203.11323v1
- Date: Mon, 21 Mar 2022 20:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:10:19.294508
- Title: Training Quantised Neural Networks with STE Variants: the Additive Noise
Annealing Algorithm
- Title(参考訳): STE変数を用いた量子ニューラルネットワークの学習:加算雑音アニーリングアルゴリズム
- Authors: Matteo Spallanzani, Gian Paolo Leonardi, Luca Benini
- Abstract要約: 量子化されたニューラルネットワーク(QNN)のトレーニングは、重みと特徴が断片的な定数関数によって出力されるため、微分不可能な問題である。
標準的な解決策は、推論と計算のステップで異なる関数を使用するストレートスルー推定器(STE)を適用することである。
トレーニングネットワークのタスク精度を最大化することを目的とした、いくつかのSTE変種が文献で提案されている。
- 参考スコア(独自算出の注目度): 16.340620299847384
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training quantised neural networks (QNNs) is a non-differentiable
optimisation problem since weights and features are output by piecewise
constant functions. The standard solution is to apply the straight-through
estimator (STE), using different functions during the inference and gradient
computation steps. Several STE variants have been proposed in the literature
aiming to maximise the task accuracy of the trained network. In this paper, we
analyse STE variants and study their impact on QNN training. We first observe
that most such variants can be modelled as stochastic regularisations of stair
functions; although this intuitive interpretation is not new, our rigorous
discussion generalises to further variants. Then, we analyse QNNs mixing
different regularisations, finding that some suitably synchronised smoothing of
each layer map is required to guarantee pointwise compositional convergence to
the target discontinuous function. Based on these theoretical insights, we
propose additive noise annealing (ANA), a new algorithm to train QNNs
encompassing standard STE and its variants as special cases. When testing ANA
on the CIFAR-10 image classification benchmark, we find that the major impact
on task accuracy is not due to the qualitative shape of the regularisations but
to the proper synchronisation of the different STE variants used in a network,
in accordance with the theoretical results.
- Abstract(参考訳): トレーニング量子化ニューラルネットワーク(qnns)は、重みと特徴が分割定数関数によって出力されるため、非微分最適化問題である。
標準的な解法は、推論と勾配計算のステップで異なる関数を使用するストレートスルー推定器(STE)を適用することである。
トレーニングされたネットワークのタスク精度を最大化する目的で、いくつかのste変種が文献に提案されている。
本稿では,STEの変種を分析し,QNNトレーニングへの影響について検討する。
この直感的な解釈は新しいものではないが、我々の厳密な議論はさらなる変種に一般化している。
次に,異なる正規化を混合したQNNの解析を行い,各レイヤマップの相似な平滑化が,対象の不連続関数に対する点的構成収束を保証するために必要であることを確認した。
これらの理論的知見に基づき、標準steとその変種を包含するqnnを訓練する新しいアルゴリズムである加算ノイズアニーリング(ana)を提案する。
cifar-10画像分類ベンチマークでanaをテストすると、タスク精度に大きな影響は正規化の質的形状によるものではなく、理論的な結果に従ってネットワークで使用される異なるste変種を適切に同期させることにあることが分かる。
関連論文リスト
- Quantification using Permutation-Invariant Networks based on Histograms [47.47360392729245]
量子化とは、モデルが与えられたサンプルの袋の中で各クラスの有病率を予測するために訓練される教師付き学習タスクである。
本稿では、対称的教師あり手法の適用が可能なシナリオにおいて、量子化タスクへのディープニューラルネットワークの適用について検討する。
ヒストグラムに基づく置換不変表現に依存する新しいニューラルアーキテクチャHistNetQを提案する。
論文 参考訳(メタデータ) (2024-03-22T11:25:38Z) - Neural Network-Based Score Estimation in Diffusion Models: Optimization
and Generalization [12.812942188697326]
拡散モデルは、忠実さ、柔軟性、堅牢性を改善した高品質なサンプルを生成する際に、GANと競合する強力なツールとして登場した。
これらのモデルの主要な構成要素は、スコアマッチングを通じてスコア関数を学ぶことである。
様々なタスクにおいて経験的な成功にもかかわらず、勾配に基づくアルゴリズムが証明可能な精度でスコア関数を学習できるかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-28T08:13:56Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Analyzing Convergence in Quantum Neural Networks: Deviations from Neural
Tangent Kernels [20.53302002578558]
量子ニューラルネットワーク(QNN)は、近未来のノイズ中間スケール量子(NISQ)コンピュータで効率的に実装可能なパラメータ化マッピングである。
既存の実証的および理論的研究にもかかわらず、QNNトレーニングの収束は完全には理解されていない。
論文 参考訳(メタデータ) (2023-03-26T22:58:06Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - AskewSGD : An Annealed interval-constrained Optimisation method to train
Quantized Neural Networks [12.229154524476405]
我々は、深層ニューラルネットワーク(DNN)を量子化重みでトレーニングするための新しいアルゴリズム、Annealed Skewed SGD - AskewSGDを開発した。
アクティブなセットと実行可能な方向を持つアルゴリズムとは異なり、AskewSGDは実行可能な全セットの下でのプロジェクションや最適化を避けている。
実験結果から,AskewSGDアルゴリズムは古典的ベンチマークの手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-11-07T18:13:44Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Analytical aspects of non-differentiable neural networks [0.0]
本稿では、量子化されたニューラルネットワークの表現性と、微分不可能なネットワークに対する近似手法について論じる。
ここでは,QNN が DNN と同じ表現性を持つことを示す。
また,Heaviside型アクティベーション関数を用いて定義されたネットワークについても検討し,スムーズなネットワークによるポイントワイズ近似の結果を証明した。
論文 参考訳(メタデータ) (2020-11-03T17:20:43Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。