論文の概要: Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator
- arxiv url: http://arxiv.org/abs/2206.07235v1
- Date: Wed, 15 Jun 2022 01:46:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:43:01.849456
- Title: Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator
- Title(参考訳): Gapped Straight-Through Estimatorによる離散的深部生成モデルの訓練
- Authors: Ting-Han Fan, Ta-Chung Chi, Alexander I. Rudnicky, Peter J. Ramadge
- Abstract要約: 再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
- 参考スコア(独自算出の注目度): 72.71398034617607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep generative models have succeeded in image processing, natural
language processing, and reinforcement learning, training that involves
discrete random variables remains challenging due to the high variance of its
gradient estimation process. Monte Carlo is a common solution used in most
variance reduction approaches. However, this involves time-consuming resampling
and multiple function evaluations. We propose a Gapped Straight-Through (GST)
estimator to reduce the variance without incurring resampling overhead. This
estimator is inspired by the essential properties of Straight-Through
Gumbel-Softmax. We determine these properties and show via an ablation study
that they are essential. Experiments demonstrate that the proposed GST
estimator enjoys better performance compared to strong baselines on two
discrete deep generative modeling tasks, MNIST-VAE and ListOps.
- Abstract(参考訳): 深層生成モデルは画像処理、自然言語処理、強化学習に成功しているが、勾配推定プロセスのばらつきが大きいため、離散確率変数を含むトレーニングは依然として困難である。
モンテカルロは、ほとんどの分散還元法で用いられる一般的な解である。
しかし、これは時間を要する再サンプリングと複数の機能評価を伴う。
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定器は、ストレートスルー・ガムベル・ソフトマックスの本質的な性質にインスパイアされている。
これらの性質を判定し、アブレーション研究を通してそれらが必須であることを示す。
実験により、提案するgst推定器は、mnist-vaeとlistopsという2つの離散的深層生成モデリングタスクの強いベースラインよりも優れた性能を享受できることが示されている。
関連論文リスト
- Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T08:09:05Z) - Custom Gradient Estimators are Straight-Through Estimators in Disguise [3.1037083241174197]
量子化を意識したトレーニングには根本的な課題が伴う: 丸みのような量子化関数の微分はほとんどどこでもゼロである。
学習速度が十分に小さい場合、重み付け勾配推定器はストレート・スルー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・
これらの結果は、MNISTデータセットでトレーニングされた小さな畳み込みモデルと、ImageNetでトレーニングされたResNet50モデルの両方に対して有効であることを示す。
論文 参考訳(メタデータ) (2024-05-08T16:07:56Z) - Bayesian Deep Learning for Remaining Useful Life Estimation via Stein
Variational Gradient Descent [14.784809634505903]
本研究では,スタイン変分勾配勾配を用いたベイズ学習モデルが収束速度と予測性能に対して一貫して優れていたことを示す。
ベイズモデルが提供する不確実性情報に基づく性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T02:21:06Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators [100.58924375509659]
ストレートスルー (ST) 推定器はその単純さと効率性から人気を得た。
計算の複雑さを低く保ちながら、STよりも改善するいくつかの手法が提案された。
我々は、トレードオフを理解し、元来主張された特性を検証するために、これらの手法のバイアスとばらつきの理論解析を行う。
論文 参考訳(メタデータ) (2021-10-07T15:16:07Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Semi-supervised Sequential Generative Models [16.23492955875404]
本稿では,個別の潜伏変数を持つ深層生成時系列モデルの学習目標について紹介する。
我々はまず、半教師付き生成モデリングの標準目標をウェイクスリープで拡張することでこの問題を克服する。
最後に,教師の強制にインスパイアされた統一的な目的を導入し,この手法が可変長監視に頑健であることを示す。
論文 参考訳(メタデータ) (2020-06-30T23:53:12Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。