論文の概要: Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks
- arxiv url: http://arxiv.org/abs/2006.03143v2
- Date: Wed, 4 Nov 2020 14:23:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:33:50.747022
- Title: Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks
- Title(参考訳): 確率的バイナリネットワークのためのパスサンプル解析勾配推定器
- Authors: Alexander Shekhovtsov, Viktor Yanush, Boris Flach
- Abstract要約: 二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
- 参考スコア(独自算出の注目度): 78.76880041670904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In neural networks with binary activations and or binary weights the training
by gradient descent is complicated as the model has piecewise constant
response. We consider stochastic binary networks, obtained by adding noises in
front of activations. The expected model response becomes a smooth function of
parameters, its gradient is well defined but it is challenging to estimate it
accurately. We propose a new method for this estimation problem combining
sampling and analytic approximation steps. The method has a significantly
reduced variance at the price of a small bias which gives a very practical
tradeoff in comparison with existing unbiased and biased estimators. We further
show that one extra linearization step leads to a deep straight-through
estimator previously known only as an ad-hoc heuristic. We experimentally show
higher accuracy in gradient estimation and demonstrate a more stable and better
performing training in deep convolutional models with both proposed methods.
- Abstract(参考訳): 二元アクティベーションと二元重みを持つニューラルネットワークでは、勾配降下によるトレーニングは、モデルが区分的な定数応答を持つため複雑である。
アクティベーションの前に雑音を加えることによって得られる確率的二元ネットワークを考える。
予測されたモデル応答はパラメータの滑らかな関数となり、勾配はよく定義されるが、正確に見積もるのは困難である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
この方法は小さなバイアスの価格でのばらつきを著しく低減し、既存のバイアスのない偏り推定器と比較して非常に実用的なトレードオフを与える。
さらに、1つの余分な線形化ステップが、以前はアドホックなヒューリスティックとしてのみ知られていた深い直線スルー推定に繋がることを示す。
グラデーション推定の精度を実験的に向上させ, 両手法を併用した深部畳み込みモデルにおいて, より安定かつ優れた訓練を行うことを示す。
関連論文リスト
- Epistemic Uncertainty and Observation Noise with the Neural Tangent Kernel [12.464924018243988]
近年の研究では、勾配降下による広いニューラルネットワークのトレーニングは、ガウス過程における後部分布の平均を計算することと正式に等価であることが示されている。
非ゼロアレタリックノイズに対処する方法を示し, 後部共分散推定器を導出する。
論文 参考訳(メタデータ) (2024-09-06T00:34:44Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Sampling from Gaussian Process Posteriors using Stochastic Gradient
Descent [43.097493761380186]
勾配アルゴリズムは線形系を解くのに有効な方法である。
最適値に収束しない場合であっても,勾配降下は正確な予測を導出することを示す。
実験的に、勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-20T15:07:37Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the influence of roundoff errors on the convergence of the gradient
descent method with low-precision floating-point computation [0.0]
ゼロバイアス特性を小さな勾配を維持する確率で交換する新しいラウンドリング方式を提案する。
提案手法は,各イテレーションにおいて降下方向にある一定の丸みバイアスを生じさせる。
論文 参考訳(メタデータ) (2022-02-24T18:18:20Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Mean-Field Approximation to Gaussian-Softmax Integral with Application
to Uncertainty Estimation [23.38076756988258]
ディープニューラルネットワークにおける不確実性を定量化するための,新しい単一モデルに基づくアプローチを提案する。
平均場近似式を用いて解析的に難解な積分を計算する。
実験的に,提案手法は最先端の手法と比較して競合的に機能する。
論文 参考訳(メタデータ) (2020-06-13T07:32:38Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。