論文の概要: Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits
- arxiv url: http://arxiv.org/abs/2111.10461v1
- Date: Fri, 19 Nov 2021 22:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 06:29:26.290365
- Title: Gaussian Process Inference Using Mini-batch Stochastic Gradient Descent:
Convergence Guarantees and Empirical Benefits
- Title(参考訳): Mini-batch Stochastic Gradient Descent を用いたガウス過程推定:収束保証と経験的便益
- Authors: Hao Chen, Lili Zheng, Raed Al Kontar, Garvesh Raskutti
- Abstract要約: 勾配降下(SGD)とその変種は、機械学習問題のアルゴリズムとして確立されている。
我々は、最小バッチSGDが全ログ類似損失関数の臨界点に収束することを証明して一歩前進する。
我々の理論的な保証は、核関数が指数的あるいは固有デカイを示すことを前提としている。
- 参考スコア(独自算出の注目度): 21.353189917487512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) and its variants have established
themselves as the go-to algorithms for large-scale machine learning problems
with independent samples due to their generalization performance and intrinsic
computational advantage. However, the fact that the stochastic gradient is a
biased estimator of the full gradient with correlated samples has led to the
lack of theoretical understanding of how SGD behaves under correlated settings
and hindered its use in such cases. In this paper, we focus on hyperparameter
estimation for the Gaussian process (GP) and take a step forward towards
breaking the barrier by proving minibatch SGD converges to a critical point of
the full log-likelihood loss function, and recovers model hyperparameters with
rate $O(\frac{1}{K})$ for $K$ iterations, up to a statistical error term
depending on the minibatch size. Our theoretical guarantees hold provided that
the kernel functions exhibit exponential or polynomial eigendecay which is
satisfied by a wide range of kernels commonly used in GPs. Numerical studies on
both simulated and real datasets demonstrate that minibatch SGD has better
generalization over state-of-the-art GP methods while reducing the
computational burden and opening a new, previously unexplored, data size regime
for GPs.
- Abstract(参考訳): 確率勾配勾配(SGD)とその変種は、その一般化性能と本質的な計算優位性から、独立サンプルを用いた大規模機械学習問題に対するゴートアルゴリズムとして確立されている。
しかし、確率勾配が相関サンプルによる全勾配の偏り推定であるという事実は、SGDの相関条件下での挙動に関する理論的理解の欠如を招き、そのような場合の使用を妨げている。
本稿では,ガウス過程(gp)のハイパーパラメータ推定に着目し,ミニバッチsgdが全ログ類似損失関数の臨界点に収束することを証明することにより,障壁を破る方向に一歩前進させ,モデルハイパーパラメータを小バッチサイズに依存する統計誤差項まで,レート$o(\frac{1}{k})$で回収する。
我々の理論的な保証は、gpsで一般的に使われる幅広いカーネルによって満たされる指数関数あるいは多項式固有値を示すことを前提としている。
シミュレーションと実データの両方に関する数値的研究により、最小バッチSGDは、最先端のGP手法よりもより一般化され、計算負担を低減し、GPのための新しい、未探索のデータサイズレギュレーションを開放することを示した。
関連論文リスト
- Amortized Variational Inference for Deep Gaussian Processes [0.0]
ディープガウス過程(DGP)はガウス過程(GP)の多層一般化である
本稿では,DGPに対して,各観測を変動パラメータにマッピングする推論関数を学習するアモータライズされた変分推論を導入する。
本手法は, 計算コストの低い従来の手法よりも, 同様に, あるいはより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-18T20:23:27Z) - Effect of Random Learning Rate: Theoretical Analysis of SGD Dynamics in Non-Convex Optimization via Stationary Distribution [6.144680854063938]
本研究では,その収束特性を明らかにするために,ランダムな学習率を持つ勾配降下(SGD)の変種を考察する。
ポアソンSGDによって更新されたパラメータの分布は、弱い仮定の下で定常分布に収束することを示した。
論文 参考訳(メタデータ) (2024-06-23T06:52:33Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Non Asymptotic Bounds for Optimization via Online Multiplicative
Stochastic Gradient Descent [0.0]
グラディエントDescent(SGD)の勾配雑音は,その特性において重要な役割を担っていると考えられている。
ミニバッチによるSGDの平均と共分散構造を持つ雑音クラスは、同様の特性を持つことを示す。
また,M-SGDアルゴリズムの強い凸状態における収束の限界を定めている。
論文 参考訳(メタデータ) (2021-12-14T02:25:43Z) - Non-Gaussian Gaussian Processes for Few-Shot Regression [71.33730039795921]
乱変数ベクトルの各成分上で動作し,パラメータを全て共有する可逆なODEベースのマッピングを提案する。
NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-10-26T10:45:25Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z) - Conditional Deep Gaussian Processes: multi-fidelity kernel learning [6.599344783327053]
固定された低忠実度データにより遅延GPを直接支持する条件付きDGPモデルを提案する。
合成および高次元データを用いた実験は、他の多次元回帰法と同等の性能を示す。
低忠実度データと階層DGP構造により、実効カーネルは真関数の帰納バイアスを符号化する。
論文 参考訳(メタデータ) (2020-02-07T14:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。