論文の概要: Posterior Approximation using Stochastic Gradient Ascent with Adaptive Stepsize
- arxiv url: http://arxiv.org/abs/2412.08951v2
- Date: Sat, 22 Feb 2025 03:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:01.310834
- Title: Posterior Approximation using Stochastic Gradient Ascent with Adaptive Stepsize
- Title(参考訳): 適応ステップサイズによる確率勾配法による後部近似
- Authors: Kart-Leong Lim, Xudong Jiang,
- Abstract要約: 後続近似により、ディリクレプロセスの混合のような非パラメトリックは、分数的なコストでより大きなデータセットにスケールアップできる。
勾配上昇は機械学習の現代的なアプローチであり、ディープニューラルネットワークのトレーニングに広く利用されている。
本研究では,ディリクレプロセス混合物の後部近似のための高速アルゴリズムとして勾配上昇法について検討する。
- 参考スコア(独自算出の注目度): 24.464140786923476
- License:
- Abstract: Scalable algorithms of posterior approximation allow Bayesian nonparametrics such as Dirichlet process mixture to scale up to larger dataset at fractional cost. Recent algorithms, notably the stochastic variational inference performs local learning from minibatch. The main problem with stochastic variational inference is that it relies on closed form solution. Stochastic gradient ascent is a modern approach to machine learning and is widely deployed in the training of deep neural networks. In this work, we explore using stochastic gradient ascent as a fast algorithm for the posterior approximation of Dirichlet process mixture. However, stochastic gradient ascent alone is not optimal for learning. In order to achieve both speed and performance, we turn our focus to stepsize optimization in stochastic gradient ascent. As as intermediate approach, we first optimize stepsize using the momentum method. Finally, we introduce Fisher information to allow adaptive stepsize in our posterior approximation. In the experiments, we justify that our approach using stochastic gradient ascent do not sacrifice performance for speed when compared to closed form coordinate ascent learning on these datasets. Lastly, our approach is also compatible with deep ConvNet features as well as scalable to large class datasets such as Caltech256 and SUN397.
- Abstract(参考訳): 後方近似のスケーラブルなアルゴリズムにより、ディリクレプロセスの混合のようなベイズ非パラメトリックは、分数コストでより大きなデータセットにスケールアップできる。
最近のアルゴリズム、特に確率的変分推論は、ミニバッチから局所学習を行う。
確率的変分推論の主な問題は、閉形式解に依存することである。
確率勾配上昇は機械学習の現代的なアプローチであり、ディープニューラルネットワークのトレーニングに広く利用されている。
本研究では,ディリクレプロセス混合の後方近似のための高速アルゴリズムとして,確率勾配法を用いて検討する。
しかし、確率勾配だけでは学習に最適ではない。
速度と性能の両方を達成するため、確率勾配上昇における最適化の段階化に焦点をあてる。
中間的手法として、まず運動量法を用いてステップ化を最適化する。
最後に,我々の後部近似における適応的な段階化を可能にするためのFisher情報を導入する。
実験では,確率勾配の上昇を用いたアプローチは,これらのデータセット上での閉形式座標の上昇学習と比較して,速度に対する性能を犠牲にしない。
最後に、私たちのアプローチは深いConvNet機能と互換性があり、Caltech256やSUN397といった大規模データセットにもスケーラブルです。
関連論文リスト
- Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T08:09:05Z) - PAVI: Plate-Amortized Variational Inference [55.975832957404556]
数百人の被験者のコホート上で何百万もの計測が行われる大集団研究において、推論は困難である。
この大きな濃度は、オフザシェルフ変分推論(VI)を計算的に非現実的である。
本研究では,大集団研究に効率よく取り組む構造VIファミリーを設計する。
論文 参考訳(メタデータ) (2023-08-30T13:22:20Z) - Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。
より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。
我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文 参考訳(メタデータ) (2022-09-13T04:58:35Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Quasi Black-Box Variational Inference with Natural Gradients for
Bayesian Learning [84.90242084523565]
複素モデルにおけるベイズ学習に適した最適化アルゴリズムを開発した。
我々のアプローチは、モデル固有導出に制限のある効率的なトレーニングのための一般的なブラックボックスフレームワーク内の自然な勾配更新に依存している。
論文 参考訳(メタデータ) (2022-05-23T18:54:27Z) - Generalised Gaussian Process Latent Variable Models (GPLVM) with
Stochastic Variational Inference [9.468270453795409]
ミニバッチ学習が可能なBayesianVMモデルの2倍の定式化について検討する。
このフレームワークが、異なる潜在変数の定式化とどのように互換性を持つかを示し、モデルの組を比較する実験を行う。
我々は、膨大な量の欠落データの存在下でのトレーニングと、高忠実度再構築の実施を実証する。
論文 参考訳(メタデータ) (2022-02-25T21:21:51Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。