論文の概要: Numerical influence of ReLU'(0) on backpropagation
- arxiv url: http://arxiv.org/abs/2106.12915v4
- Date: Fri, 3 Nov 2023 13:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 18:51:09.392440
- Title: Numerical influence of ReLU'(0) on backpropagation
- Title(参考訳): バックプロパゲーションにおけるReLU'(0)の数値解析効果
- Authors: David Bertoin (ISAE-SUPAERO), J\'er\^ome Bolte (TSE-R), S\'ebastien
Gerchinovitz (IMT), Edouard Pauwels (IRIT-ADRIA)
- Abstract要約: 理論的には、[0, 1] における ReLU(0) の選択は、バックプロパゲーションとトレーニングの両方に無視できる影響を持つ。
各種ネットワークおよびデータセットにおける複数の精度レベル(16, 32, 64ビット)に対するReLU'(0)値の重要性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In theory, the choice of ReLU(0) in [0, 1] for a neural network has a
negligible influence both on backpropagation and training. Yet, in the real
world, 32 bits default precision combined with the size of deep learning
problems makes it a hyperparameter of training methods. We investigate the
importance of the value of ReLU'(0) for several precision levels (16, 32, 64
bits), on various networks (fully connected, VGG, ResNet) and datasets (MNIST,
CIFAR10, SVHN, ImageNet). We observe considerable variations of backpropagation
outputs which occur around half of the time in 32 bits precision. The effect
disappears with double precision, while it is systematic at 16 bits. For
vanilla SGD training, the choice ReLU'(0) = 0 seems to be the most efficient.
For our experiments on ImageNet the gain in test accuracy over ReLU'(0) = 1 was
more than 10 points (two runs). We also evidence that reconditioning approaches
as batch-norm or ADAM tend to buffer the influence of ReLU'(0)'s value.
Overall, the message we convey is that algorithmic differentiation of nonsmooth
problems potentially hides parameters that could be tuned advantageously.
- Abstract(参考訳): 理論上、ニューラルネットワークの[0, 1]におけるrelu(0)の選択は、バックプロパゲーションとトレーニングの両方に無視できない影響を与える。
しかし、現実世界では、32ビットのデフォルト精度とディープラーニングの問題のサイズが組み合わさって、トレーニング手法のハイパーパラメータとなる。
各種ネットワーク(全接続, VGG, ResNet)とデータセット(MNIST, CIFAR10, SVHN, ImageNet)における複数の精度レベル(16, 32, 64ビット)に対するReLU'(0)の値の重要性について検討する。
約半分の時間で32ビット精度で発生するバックプロパゲーション出力のかなりの変動を観測する。
この効果は倍精度で消失するが、16ビットで体系化される。
バニラSGDトレーニングでは、ReLU'(0) = 0 の選択が最も効率的と思われる。
ImageNetの実験では、ReLU'(0) = 1に対するテスト精度の上昇は10ポイント以上(2ラン)であった。
また、バッチノルムやADAMのようなリコンディショニングアプローチは、ReLU(0)値の影響を緩衝する傾向にあることを示す。
全体として、我々が伝えるメッセージは、非滑らかな問題のアルゴリズム的微分は、有利に調整できるパラメータを隠蔽する可能性があるということだ。
関連論文リスト
- SwishReLU: A Unified Approach to Activation Functions for Enhanced Deep Neural Networks Performance [1.2724528787590168]
ディープニューラルネットワークでよく使われるアクティベーション関数であるReLUは、"Dying ReLU"の問題に傾向がある。
ELU、SeLU、Swishなどいくつかの改良版が導入されており、一般的には使われていないと考えられている。
本稿では,ReLUとSwishの要素を組み合わせた新しいアクティベーション機能であるSwishReLUを提案する。
論文 参考訳(メタデータ) (2024-07-11T07:14:34Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - On the numerical reliability of nonsmooth autodiff: a MaxPool case study [1.3597551064547502]
本稿では,非滑らかなMaxPool演算を含むニューラルネットワークにおける自動微分(AD)の信頼性について考察する。
最大プール関数に対する非滑らかなヤコビアンの異なる選択が16ビットと32ビットの精度に与える影響について検討した。
論文 参考訳(メタデータ) (2024-01-05T10:14:39Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Renormalized Sparse Neural Network Pruning [0.0]
本稿では,スパースニューラルネットワークの精度向上のための再正規化を提案する。
提案手法の誤差は,ネットワークパラメータのクラスタ化や集中化として0に収束することを示す。
実世界のデータセットMNIST, Fashion MNIST, CIFAR-10について実験を行った。
論文 参考訳(メタデータ) (2022-06-21T03:04:32Z) - Selective Network Linearization for Efficient Private Inference [49.937470642033155]
本稿では,予測精度を維持しつつReLUを選択的に線形化する勾配に基づくアルゴリズムを提案する。
その結果、現在の技術よりも4.25%$の精度(so-ReLUは50K)、または2.2times$のレイテンシ(so-accuracyは70%)が低いことがわかった。
論文 参考訳(メタデータ) (2022-02-04T19:00:24Z) - Piecewise Linear Units Improve Deep Neural Networks [0.0]
活性化機能は、ディープニューラルネットワークの非線形性の中心にある。
現在、多くの実践者は、その単純さと信頼性から、Rectified Linear Unit (ReLU) を好んでいる。
本稿では,ニューラルネットワークの各次元に対して独立に学習可能な適応的ピースワイド線形活性化関数Piecewise Linear Unit(PiLU)を提案する。
論文 参考訳(メタデータ) (2021-08-02T08:09:38Z) - Circa: Stochastic ReLUs for Private Deep Learning [6.538025863698682]
我々はReLU計算を再考し、ニューラルネットワークに適したPIの最適化を提案する。
具体的には,ReLUを近似手形テストとして再構成し,手形テストのための新しい切り抜き手法を導入する。
最大4.7倍のストレージと3倍のランタイムをベースライン実装で実現した。
論文 参考訳(メタデータ) (2021-06-15T22:52:45Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。