論文の概要: Zero-Variance Gradients for Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2508.03587v1
- Date: Tue, 05 Aug 2025 15:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.05608
- Title: Zero-Variance Gradients for Variational Autoencoders
- Title(参考訳): 変分オートエンコーダのゼロ変数勾配
- Authors: Zilei Shao, Anji Liu, Guy Van den Broeck,
- Abstract要約: 変分オートエンコーダ(VAE)のような深層生成モデルの訓練は、潜伏変数のサンプリングを通じて勾配をバックプロパゲートする必要性によって、しばしば妨げられる。
本稿では,この問題をサイドステップとして,Silent Gradientsと呼ぶ新しい視点を提案する。
推定器を改良する代わりに、特定のデコーダアーキテクチャを解析的に利用して予測されるELBOを計算する。
- 参考スコア(独自算出の注目度): 32.818968022327866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training deep generative models like Variational Autoencoders (VAEs) is often hindered by the need to backpropagate gradients through the stochastic sampling of their latent variables, a process that inherently introduces estimation variance, which can slow convergence and degrade performance. In this paper, we propose a new perspective that sidesteps this problem, which we call Silent Gradients. Instead of improving stochastic estimators, we leverage specific decoder architectures to analytically compute the expected ELBO, yielding a gradient with zero variance. We first provide a theoretical foundation for this method and demonstrate its superiority over existing estimators in a controlled setting with a linear decoder. To generalize our approach for practical use with complex, expressive decoders, we introduce a novel training dynamic that uses the exact, zero-variance gradient to guide the early stages of encoder training before annealing to a standard stochastic estimator. Our experiments show that this technique consistently improves the performance of established baselines, including reparameterization, Gumbel-Softmax, and REINFORCE, across multiple datasets. This work opens a new direction for training generative models by combining the stability of analytical computation with the expressiveness of deep, nonlinear architecture.
- Abstract(参考訳): 変分オートエンコーダ(VAEs)のような深層生成モデルの訓練は、潜伏変数の確率的なサンプリングを通じて勾配をバックプロパゲートする必要性によって、しばしば妨げられる。
本稿では,この問題をサイドステップとして,Silent Gradientsと呼ぶ新しい視点を提案する。
確率的推定器を改善する代わりに、特定のデコーダアーキテクチャを活用して予測されるELBOを解析的に計算し、ばらつきをゼロにする。
まず,この手法の理論的基礎を提供し,線形デコーダを用いた制御環境で既存の推定器よりも優れていることを示す。
複雑で表現力のあるデコーダを実用化するためのアプローチを一般化するために,標準的な確率推定器にアニールする前に,精度の高いゼロ分散勾配を用いてエンコーダ訓練の初期段階を案内する新しいトレーニング力学を導入する。
実験の結果,この手法は複数のデータセットをまたいだ再パラメータ化,Gumbel-Softmax,REINFORCEなど,確立されたベースラインの性能を一貫して向上させることがわかった。
この研究は、解析計算の安定性と深い非線形アーキテクチャの表現性を組み合わせることで、生成モデルを訓練するための新しい方向を開く。
関連論文リスト
- Deep Equilibrium models for Poisson Imaging Inverse problems via Mirror Descent [7.248102801711294]
ディープ平衡モデル(Deep Equilibrium Models、DEQ)は、固定点を持つ暗黙のニューラルネットワークである。
我々は、非ユークリッド幾何学の仕方で定義されるミラー・ディクセントに基づく新しいDEC式を導入する。
本稿では,効率的なトレーニングと完全パラメータフリー推論が可能な計算戦略を提案する。
論文 参考訳(メタデータ) (2025-07-15T16:33:01Z) - A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - Learning Optical Flow Field via Neural Ordinary Differential Equation [44.16275288019991]
近年の光学フロー推定では、ニューラルネットワークを用いて、ある画像の位置を他方の位置にマッピングする流れ場を予測している。
連続モデル,すなわちニューラル常微分方程式(ODE)を用いて流れの微分を予測する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-03T18:30:14Z) - Sample as You Infer: Predictive Coding With Langevin Dynamics [11.515490109360012]
汎用的な深層生成モデルにおけるパラメータ学習のための新しいアルゴリズムを提案する。
提案手法は,標準変分自動エンコーダトレーニングから得られる性能と超越性を実現するために,標準PCアルゴリズムを改良する。
論文 参考訳(メタデータ) (2023-11-22T19:36:47Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Unbiased Gradient Estimation for Variational Auto-Encoders using Coupled
Markov Chains [34.77971292478243]
変分オートエンコーダ(VAE)は、オートエンコーダのようなアーキテクチャで2つのニューラルネットワークを持つ、潜伏変数モデルである。
ログ型勾配の偏りのない推定器を導入することにより,VAEのトレーニング手法を開発する。
偏りのない推定器を装着したVAEは予測性能が向上することを示した。
論文 参考訳(メタデータ) (2020-10-05T08:11:55Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。