論文の概要: Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks
- arxiv url: http://arxiv.org/abs/2006.06880v4
- Date: Tue, 19 Oct 2021 14:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:10:55.143128
- Title: Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks
- Title(参考訳): 確率二元ネットワークの原理的手法としての直通推定器の再導入
- Authors: Alexander Shekhovtsov, Viktor Yanush
- Abstract要約: 2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
- 参考スコア(独自算出の注目度): 85.94999581306827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training neural networks with binary weights and activations is a challenging
problem due to the lack of gradients and difficulty of optimization over
discrete weights. Many successful experimental results have been achieved with
empirical straight-through (ST) approaches, proposing a variety of ad-hoc rules
for propagating gradients through non-differentiable activations and updating
discrete weights. At the same time, ST methods can be truly derived as
estimators in the stochastic binary network (SBN) model with Bernoulli weights.
We advance these derivations to a more complete and systematic study. We
analyze properties, estimation accuracy, obtain different forms of correct ST
estimators for activations and weights, explain existing empirical approaches
and their shortcomings, explain how latent weights arise from the mirror
descent method when optimizing over probabilities. This allows to reintroduce
ST methods, long known empirically, as sound approximations, apply them with
clarity and develop further improvements.
- Abstract(参考訳): 二元重みとアクティベーションによるニューラルネットワークのトレーニングは、勾配の欠如と離散重みに対する最適化の難しさから、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成され、微分不可能な活性化を通じて勾配を伝播し、離散重みを更新するための様々なアドホック規則が提案されている。
同時に、ST法はベルヌーイ重みを持つ確率二元ネットワーク(SBN)モデルにおける推定子として真に導出することができる。
我々はこれらの導出をより完全かつ体系的な研究に進める。
動作特性, 推定精度, アクティベーションと重みの異なるST推定器の形状を解析し, 既存の経験的アプローチとその欠点を説明し, 確率を最適化する際に鏡下降法から潜時重みがどのように生じるかを説明する。
これにより、経験的に知られているst法を音の近似として再導入し、明瞭さを付与し、さらなる改良を施すことができる。
関連論文リスト
- On Training Implicit Meta-Learning With Applications to Inductive
Weighing in Consistency Regularization [0.0]
暗黙的メタラーニング(IML)では、特にヘシアン(Hessian)の計算に2ドル(約2,200円)の勾配を必要とする。
ヘッセンの様々な近似が提案されたが、計算コスト、安定性、解の一般化、推定精度の体系的な比較はほとんど見過ごされてしまった。
本稿では,ドメイン固有の特徴を抽出するために,信頼ネットワークをトレーニングすることで,有用画像のアップウェイトや配布外サンプルのダウンウェイトを学べることを示す。
論文 参考訳(メタデータ) (2023-10-28T15:50:03Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - On the Overlooked Structure of Stochastic Gradients [34.650998241703626]
一方,ミニバッチトレーニングによる繰り返し勾配と勾配雑音は,通常,パワー則重尾は示さない。
我々の研究は、既存の信念に挑戦し、ディープラーニングにおける勾配の構造に関する新しい洞察を提供する。
論文 参考訳(メタデータ) (2022-12-05T07:55:22Z) - Calibrated and Sharp Uncertainties in Deep Learning via Simple Density
Estimation [7.184701179854522]
本稿では,これらの特性の観点からの不確かさを推論し,それを深層学習に適用するための簡単なアルゴリズムを提案する。
本手法はキャリブレーションの最も強い概念である分布キャリブレーションに着目し,低次元密度あるいは量子関数をニューラル推定器に適合させることにより,キャリブレーションを強制する。
実験により,本手法は計算と実装のオーバーヘッドを最小限に抑えながら,いくつかのタスクにおける予測の不確実性を改善できることが判明した。
論文 参考訳(メタデータ) (2021-12-14T06:19:05Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。