論文の概要: Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators
- arxiv url: http://arxiv.org/abs/2110.03549v1
- Date: Thu, 7 Oct 2021 15:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:23:44.592907
- Title: Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators
- Title(参考訳): 単一サンプル二元勾配推定器におけるバイアス分散トレードオフ
- Authors: Alexander Shekhovtsov
- Abstract要約: ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
- 参考スコア(独自算出の注目度): 100.58924375509659
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Discrete and especially binary random variables occur in many machine
learning models, notably in variational autoencoders with binary latent states
and in stochastic binary networks. When learning such models, a key tool is an
estimator of the gradient of the expected loss with respect to the
probabilities of binary variables. The straight-through (ST) estimator gained
popularity due to its simplicity and efficiency, in particular in deep networks
where unbiased estimators are impractical. Several techniques were proposed to
improve over ST while keeping the same low computational complexity:
Gumbel-Softmax, ST-Gumbel-Softmax, BayesBiNN, FouST. We conduct a theoretical
analysis of Bias and Variance of these methods in order to understand tradeoffs
and verify the originally claimed properties. The presented theoretical results
are mainly negative, showing limitations of these methods and in some cases
revealing serious issues.
- Abstract(参考訳): 離散変数、特に二項確率変数は、多くの機械学習モデル、特に二項潜在状態を持つ変分オートエンコーダや確率的バイナリネットワークで発生する。
そのようなモデルを学ぶとき、鍵となるツールは、2進変数の確率に関して期待される損失の勾配を推定するものである。
ストレートスルー(ST)推定器はその単純さと効率性、特に非バイアス推定器が実用的でないディープネットワークで人気を得た。
計算量はGumbel-Softmax、ST-Gumbel-Softmax、BayesBiNN、FouSTなどと同じである。
トレードオフを理解し、最初に主張された特性を検証するために、これらの手法のバイアスと変数の理論解析を行う。
提示された理論結果は、主に否定的であり、これらの手法の限界を示し、場合によっては深刻な問題を示す。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Bayesian Deep Learning for Remaining Useful Life Estimation via Stein
Variational Gradient Descent [14.784809634505903]
本研究では,スタイン変分勾配勾配を用いたベイズ学習モデルが収束速度と予測性能に対して一貫して優れていたことを示す。
ベイズモデルが提供する不確実性情報に基づく性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T02:21:06Z) - Learning a Gaussian Mixture for Sparsity Regularization in Inverse
Problems [2.375943263571389]
逆問題では、スパーシティ事前の組み込みは、解に対する正則化効果をもたらす。
本稿では,ガウスの混合として事前に定式化された確率的疎性について提案する。
我々は、このネットワークのパラメータを推定するために、教師なしのトレーニング戦略と教師なしのトレーニング戦略をそれぞれ導入した。
論文 参考訳(メタデータ) (2024-01-29T22:52:57Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Single Model Uncertainty Estimation via Stochastic Data Centering [39.71621297447397]
私たちは、ディープニューラルネットワークの不確実性を見積もることに興味があります。
我々は、一定のバイアスによってシフトしたデータセットに基づいてトレーニングされた、同じ重み付きニューラルネットワークのアンサンブルが、わずかに一貫性のないトレーニングモデルを引き起こすという驚くべき新しい発見を提示する。
我々は、$Delta-$UQの不確実性推定が、様々なベンチマークにおける現在の多くの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-14T23:54:54Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Expectation propagation on the diluted Bayesian classifier [0.0]
本稿では,二項分類の文脈におけるスパース特徴選択の問題に対処する統計力学にインスパイアされた戦略を導入する。
予測伝搬(EP)として知られる計算スキームは、分類規則を学習する連続重みの知覚を訓練するために用いられる。
EPは、変数選択特性、推定精度、計算複雑性の点で頑健で競争力のあるアルゴリズムである。
論文 参考訳(メタデータ) (2020-09-20T23:59:44Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。