論文の概要: Posterior Approximation using Stochastic Gradient Ascent with Adaptive Stepsize
- arxiv url: http://arxiv.org/abs/2412.08951v2
- Date: Sat, 22 Feb 2025 03:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 18:15:43.694046
- Title: Posterior Approximation using Stochastic Gradient Ascent with Adaptive Stepsize
- Title(参考訳): 適応ステップサイズによる確率勾配法による後部近似
- Authors: Kart-Leong Lim, Xudong Jiang,
- Abstract要約: 後続近似により、ディリクレプロセスの混合のような非パラメトリックは、分数的なコストでより大きなデータセットにスケールアップできる。
勾配上昇は機械学習の現代的なアプローチであり、ディープニューラルネットワークのトレーニングに広く利用されている。
本研究では,ディリクレプロセス混合物の後部近似のための高速アルゴリズムとして勾配上昇法について検討する。
- 参考スコア(独自算出の注目度): 24.464140786923476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable algorithms of posterior approximation allow Bayesian nonparametrics such as Dirichlet process mixture to scale up to larger dataset at fractional cost. Recent algorithms, notably the stochastic variational inference performs local learning from minibatch. The main problem with stochastic variational inference is that it relies on closed form solution. Stochastic gradient ascent is a modern approach to machine learning and is widely deployed in the training of deep neural networks. In this work, we explore using stochastic gradient ascent as a fast algorithm for the posterior approximation of Dirichlet process mixture. However, stochastic gradient ascent alone is not optimal for learning. In order to achieve both speed and performance, we turn our focus to stepsize optimization in stochastic gradient ascent. As as intermediate approach, we first optimize stepsize using the momentum method. Finally, we introduce Fisher information to allow adaptive stepsize in our posterior approximation. In the experiments, we justify that our approach using stochastic gradient ascent do not sacrifice performance for speed when compared to closed form coordinate ascent learning on these datasets. Lastly, our approach is also compatible with deep ConvNet features as well as scalable to large class datasets such as Caltech256 and SUN397.
- Abstract(参考訳): 後方近似のスケーラブルなアルゴリズムにより、ディリクレプロセスの混合のようなベイズ非パラメトリックは、分数コストでより大きなデータセットにスケールアップできる。
最近のアルゴリズム、特に確率的変分推論は、ミニバッチから局所学習を行う。
確率的変分推論の主な問題は、閉形式解に依存することである。
確率勾配上昇は機械学習の現代的なアプローチであり、ディープニューラルネットワークのトレーニングに広く利用されている。
本研究では,ディリクレプロセス混合の後方近似のための高速アルゴリズムとして,確率勾配法を用いて検討する。
しかし、確率勾配だけでは学習に最適ではない。
速度と性能の両方を達成するため、確率勾配上昇における最適化の段階化に焦点をあてる。
中間的手法として、まず運動量法を用いてステップ化を最適化する。
最後に,我々の後部近似における適応的な段階化を可能にするためのFisher情報を導入する。
実験では,確率勾配の上昇を用いたアプローチは,これらのデータセット上での閉形式座標の上昇学習と比較して,速度に対する性能を犠牲にしない。
最後に、私たちのアプローチは深いConvNet機能と互換性があり、Caltech256やSUN397といった大規模データセットにもスケーラブルです。
関連論文リスト
- Adaptive Consensus Gradients Aggregation for Scaled Distributed Training [6.234802839923543]
サブスペース最適化のレンズを用いて分散勾配凝集過程を解析する。
本手法は,複数のタスクのユビキタス平均化に対して,通信量と計算量の両方において極めて効率的でありながら,性能の向上を実証する。
論文 参考訳(メタデータ) (2024-11-06T08:16:39Z) - Unified Gradient-Based Machine Unlearning with Remain Geometry Enhancement [29.675650285351768]
深層ニューラルネットワークのプライバシーと信頼性を高めるために、機械学習(MU)が登場した。
近似MUは大規模モデルの実用的手法である。
本稿では,最新の学習方向を暗黙的に近似する高速スローパラメータ更新手法を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:17:33Z) - Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling [22.256068524699472]
本研究では,これらの問題に対処するために,Annealed Importance Smpling (AIS)アプローチを提案する。
シークエンシャルモンテカルロサンプリング器とVIの強度を組み合わせることで、より広い範囲の後方分布を探索し、徐々にターゲット分布に接近する。
実験結果から,本手法はより厳密な変動境界,高い対数類似度,より堅牢な収束率で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-08-13T08:09:05Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Information-Theoretic Trust Regions for Stochastic Gradient-Based
Optimization [17.79206971486723]
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
我々は、勾配からヘッセンの対角要素を近似し、1次情報のみを用いて予測されたヘッセンのモデルを構築する。
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
論文 参考訳(メタデータ) (2023-10-31T16:08:38Z) - PAVI: Plate-Amortized Variational Inference [55.975832957404556]
数百人の被験者のコホート上で何百万もの計測が行われる大集団研究において、推論は困難である。
この大きな濃度は、オフザシェルフ変分推論(VI)を計算的に非現実的である。
本研究では,大集団研究に効率よく取り組む構造VIファミリーを設計する。
論文 参考訳(メタデータ) (2023-08-30T13:22:20Z) - Manifold Gaussian Variational Bayes on the Precision Matrix [70.44024861252554]
複雑なモデルにおける変分推論(VI)の最適化アルゴリズムを提案する。
本研究では,変分行列上の正定値制約を満たすガウス変分推論の効率的なアルゴリズムを開発した。
MGVBPはブラックボックスの性質のため、複雑なモデルにおけるVIのための準備が整ったソリューションである。
論文 参考訳(メタデータ) (2022-10-26T10:12:31Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。
より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。
我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文 参考訳(メタデータ) (2022-09-13T04:58:35Z) - Generalised Gaussian Process Latent Variable Models (GPLVM) with
Stochastic Variational Inference [9.468270453795409]
ミニバッチ学習が可能なBayesianVMモデルの2倍の定式化について検討する。
このフレームワークが、異なる潜在変数の定式化とどのように互換性を持つかを示し、モデルの組を比較する実験を行う。
我々は、膨大な量の欠落データの存在下でのトレーニングと、高忠実度再構築の実施を実証する。
論文 参考訳(メタデータ) (2022-02-25T21:21:51Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Learning Augmentation Distributions using Transformed Risk Minimization [47.236227685707526]
本稿では,古典的リスク最小化の拡張として,新しいemphTransformed Risk Minimization(TRM)フレームワークを提案する。
重要な応用として、与えられたクラスの予測器による分類性能を改善するために、学習強化に焦点を当てる。
論文 参考訳(メタデータ) (2021-11-16T02:07:20Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Stochastic Gradient Variance Reduction by Solving a Filtering Problem [0.951828574518325]
ディープニューラルネットワーク(DNN)は一般的に最適化された勾配降下(SGD)を用いる
試料を用いた勾配推定はノイズが多く信頼性が低い傾向にあり, 勾配のばらつきが大きく, 収束不良が生じる。
勾配を一貫した推定を行う効率的な最適化アルゴリズムである textbfFilter Gradient Decent (FGD) を提案する。
論文 参考訳(メタデータ) (2020-12-22T23:48:42Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。