論文の概要: Gradient Estimation for Binary Latent Variables via Gradient Variance
Clipping
- arxiv url: http://arxiv.org/abs/2208.06124v1
- Date: Fri, 12 Aug 2022 05:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:00:19.220788
- Title: Gradient Estimation for Binary Latent Variables via Gradient Variance
Clipping
- Title(参考訳): 勾配分散クリッピングによる2値潜在変数の勾配推定
- Authors: Russell Z. Kunes, Mingzhang Yin, Max Land, Doron Haviv, Dana Pe'er,
Simon Tavar\'e
- Abstract要約: 勾配推定はしばしば、離散潜在変数を持つ生成モデルに適合するために必要である。
DisARMや他の推定器は、パラメータ空間の境界付近でばらつきを爆発させる可能性がある。
パラメータ空間の境界における分散を小さくする勾配推定器 textitbitflip-1 を提案する。
- 参考スコア(独自算出の注目度): 6.234350105794441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient estimation is often necessary for fitting generative models with
discrete latent variables, in contexts such as reinforcement learning and
variational autoencoder (VAE) training. The DisARM estimator (Yin et al. 2020;
Dong, Mnih, and Tucker 2020) achieves state of the art gradient variance for
Bernoulli latent variable models in many contexts. However, DisARM and other
estimators have potentially exploding variance near the boundary of the
parameter space, where solutions tend to lie. To ameliorate this issue, we
propose a new gradient estimator \textit{bitflip}-1 that has lower variance at
the boundaries of the parameter space. As bitflip-1 has complementary
properties to existing estimators, we introduce an aggregated estimator,
\textit{unbiased gradient variance clipping} (UGC) that uses either a bitflip-1
or a DisARM gradient update for each coordinate. We theoretically prove that
UGC has uniformly lower variance than DisARM. Empirically, we observe that UGC
achieves the optimal value of the optimization objectives in toy experiments,
discrete VAE training, and in a best subset selection problem.
- Abstract(参考訳): 回帰推定は、強化学習や変分オートエンコーダ(VAE)訓練のような文脈において、離散潜在変数に生成モデルを適合させるのにしばしば必要である。
DisARM 推定器 (Yin et al. 2020; Dong, Mnih, Tucker 2020) は,Bernoulli の潜伏変数モデルに対して,多くの文脈でアート勾配の分散を達成している。
しかし、DisARMや他の推定器は、解が嘘をつく傾向があるパラメータ空間の境界付近で分散を爆発させる可能性がある。
この問題を改善するために,パラメータ空間の境界でのばらつきが小さい新しい勾配推定器 \textit{bitflip}-1を提案する。
bitflip-1 は既存の推定器に相補的な性質を持つため、各座標に対して bitflip-1 または DisARM 勾配更新を使用する集約推定器である \textit{unbiased gradient variance clipping} (UGC) を導入する。
理論的には、UGCはDisARMよりも均一に分散が低いことを証明している。
実験により,UGCが玩具実験,個別のVAEトレーニング,そして最適なサブセット選択問題において最適化目標の最適値を達成することを実証した。
関連論文リスト
- Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Sampling in Constrained Domains with Orthogonal-Space Variational
Gradient Descent [13.724361914659438]
多様体上のサンプリングのための直交空間勾配流(O-Gradient)を設計した新しい変分フレームワークを提案する。
我々は、O-Gradient が目標制約分布に収束し、弱条件下では、$widetildeO (1/textthe number of iterations)$$で収束することを証明した。
論文 参考訳(メタデータ) (2022-10-12T17:51:13Z) - Adaptive Perturbation-Based Gradient Estimation for Discrete Latent
Variable Models [28.011868604717726]
複素離散分布に対する適応勾配推定器であるAdaptive IMLEを提案する。
我々の推定器は、他の勾配推定器よりも桁違いに少ないサンプルを必要とする一方で、忠実な推定を行うことができることを示す。
論文 参考訳(メタデータ) (2022-09-11T13:32:39Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Gradient Estimation with Discrete Stein Operators [44.64146470394269]
離散分布に対するスタイン演算子に基づく分散化手法を提案する。
提案手法は,同数の関数評価値を持つ最先端推定値よりも,かなり低い分散性を実現する。
論文 参考訳(メタデータ) (2022-02-19T02:22:23Z) - Double Control Variates for Gradient Estimation in Discrete Latent
Variable Models [32.33171301923846]
スコア関数推定器の分散化手法を提案する。
我々の推定器は、他の最先端推定器と比較してばらつきが低いことを示す。
論文 参考訳(メタデータ) (2021-11-09T18:02:42Z) - Multivariate Probabilistic Regression with Natural Gradient Boosting [63.58097881421937]
多変量予測分布の条件パラメータを非パラメトリックにモデル化したNatural Gradient Boosting (NGBoost) 手法を提案する。
提案手法は頑健で, 広範囲なチューニングを伴わず, 推定対象分布に対してモジュール構造であり, 既存の手法と比較して競争力がある。
論文 参考訳(メタデータ) (2021-06-07T17:44:49Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。