論文の概要: Estimator Meets Equilibrium Perspective: A Rectified Straight Through
Estimator for Binary Neural Networks Training
- arxiv url: http://arxiv.org/abs/2308.06689v1
- Date: Sun, 13 Aug 2023 05:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:04:50.482877
- Title: Estimator Meets Equilibrium Perspective: A Rectified Straight Through
Estimator for Binary Neural Networks Training
- Title(参考訳): EstimatorがEquilibrium Perspectiveと出会う: バイナリニューラルネットワークトレーニングのためのEstimator
- Authors: Xiao-Ming Wu, Dian Zheng, Zuhao Liu, Wei-Shi Zheng
- Abstract要約: ニューラルネットワークのバイナリ化は、ニューラルネットワーク圧縮において支配的なパラダイムである。
本稿では,推定誤差と勾配安定性のバランスをとるために,ReSTE(Rectified Straight Through Estimator)を提案する。
ReSTEは優れたパフォーマンスを持ち、補助モジュールや損失を伴わずに最先端のメソッドを超える。
- 参考スコア(独自算出の注目度): 35.090598013305275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binarization of neural networks is a dominant paradigm in neural networks
compression. The pioneering work BinaryConnect uses Straight Through Estimator
(STE) to mimic the gradients of the sign function, but it also causes the
crucial inconsistency problem. Most of the previous methods design different
estimators instead of STE to mitigate it. However, they ignore the fact that
when reducing the estimating error, the gradient stability will decrease
concomitantly. These highly divergent gradients will harm the model training
and increase the risk of gradient vanishing and gradient exploding. To fully
take the gradient stability into consideration, we present a new perspective to
the BNNs training, regarding it as the equilibrium between the estimating error
and the gradient stability. In this view, we firstly design two indicators to
quantitatively demonstrate the equilibrium phenomenon. In addition, in order to
balance the estimating error and the gradient stability well, we revise the
original straight through estimator and propose a power function based
estimator, Rectified Straight Through Estimator (ReSTE for short). Comparing to
other estimators, ReSTE is rational and capable of flexibly balancing the
estimating error with the gradient stability. Extensive experiments on CIFAR-10
and ImageNet datasets show that ReSTE has excellent performance and surpasses
the state-of-the-art methods without any auxiliary modules or losses.
- Abstract(参考訳): ニューラルネットワークのバイナリ化は、ニューラルネットワーク圧縮において支配的なパラダイムである。
先駆的な作業であるBinaryConnectは、手話関数の勾配を模倣するためにSTE(Straight Through Estimator)を使用しているが、重要な一貫性の問題を引き起こす。
従来の手法の多くは、steの代わりに異なる推定器を設計する。
しかし、推定誤差を減少させると勾配安定性が相乗的に低下するという事実を無視する。
これらの高度に分散した勾配はモデルの訓練に害を与え、勾配の消滅と勾配の爆発のリスクを増大させる。
勾配安定性を十分に考慮するために, 推定誤差と勾配安定性の平衡としてBNNのトレーニングに新たな視点を提示する。
本稿ではまず,平衡現象を定量的に示す2つの指標を設計する。
また, 推定誤差と勾配安定性のバランスをとるために, 元の直線を推定器で補正し, 電力関数に基づく推定器Rectified Straight Through Estimator (略してReSTE)を提案する。
他の推定器と比較して、ReSTEは合理的であり、推定誤差と勾配安定性との柔軟にバランスをとることができる。
CIFAR-10とImageNetデータセットの大規模な実験により、ReSTEは優れたパフォーマンスを示し、補助モジュールや損失なしに最先端のメソッドを超越している。
関連論文リスト
- The Equalization Losses: Gradient-Driven Training for Long-tailed Object
Recognition [84.51875325962061]
本稿では,長距離問題に対処するための勾配駆動型学習機構を提案する。
我々は、勾配駆動損失関数の新たなファミリー、すなわち等化損失を導入する。
我々の手法は一貫してベースラインモデルより優れています。
論文 参考訳(メタデータ) (2022-10-11T16:00:36Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Coupled Gradient Estimators for Discrete Latent Variables [41.428359609999326]
非バイアス勾配推定器の高分散のため、離散潜伏変数を持つ訓練モデルは困難である。
重要サンプリングと統計的結合に基づく新しい推定器の導出を提案する。
提案した分類的勾配推定器は,最先端の性能を示すことを示す。
論文 参考訳(メタデータ) (2021-06-15T11:28:44Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing
its Gradient Estimator Bias [65.13042449121411]
実際には、EPによって提供される勾配推定によるネットワークのトレーニングは、MNISTよりも難しい視覚タスクにスケールしない。
有限ヌード法に固有のEPの勾配推定のバイアスがこの現象の原因であることを示す。
これらの手法を適用し、非対称な前方および後方接続を持つアーキテクチャをトレーニングし、13.2%のテストエラーを発生させる。
論文 参考訳(メタデータ) (2020-06-06T09:36:07Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。