論文の概要: High-Dimensional Gaussian Process Inference with Derivatives
- arxiv url: http://arxiv.org/abs/2102.07542v1
- Date: Mon, 15 Feb 2021 13:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:35:33.505548
- Title: High-Dimensional Gaussian Process Inference with Derivatives
- Title(参考訳): 微分を持つ高次元ガウス過程推論
- Authors: Filip de Roos, Alexandra Gessner, Philipp Hennig
- Abstract要約: 低データ状態の$ND$では、Gram行列は$mathcalO(N2D + (N2)3)$に推論のコストを下げる方法で分解できることを示す。
最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。
- 参考スコア(独自算出の注目度): 90.8033626920884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although it is widely known that Gaussian processes can be conditioned on
observations of the gradient, this functionality is of limited use due to the
prohibitive computational cost of $\mathcal{O}(N^3 D^3)$ in data points $N$ and
dimension $D$. The dilemma of gradient observations is that a single one of
them comes at the same cost as $D$ independent function evaluations, so the
latter are often preferred. Careful scrutiny reveals, however, that derivative
observations give rise to highly structured kernel Gram matrices for very
general classes of kernels (inter alia, stationary kernels). We show that in
the low-data regime $N<D$, the Gram matrix can be decomposed in a manner that
reduces the cost of inference to $\mathcal{O}(N^2D + (N^2)^3)$ (i.e., linear in
the number of dimensions) and, in special cases, to $\mathcal{O}(N^2D + N^3)$.
This reduction in complexity opens up new use-cases for inference with
gradients especially in the high-dimensional regime, where the
information-to-cost ratio of gradient observations significantly increases. We
demonstrate this potential in a variety of tasks relevant for machine learning,
such as optimization and Hamiltonian Monte Carlo with predictive gradients.
- Abstract(参考訳): ガウス過程が勾配の観測で条件付けできることは広く知られているが、この関数はデータポイント$N$および次元$D$において$\mathcal{O}(N^3 D^3)$の禁止計算コストのために限定的に使用される。
勾配観測のジレンマは、そのうちの1つが$D$独立関数評価と同じコストで来るので、後者はしばしば好まれる。
しかし、注意深い精査の結果、微分観測は、非常に一般的なカーネルクラス(inter alia, stationary kernels)に対して高度に構造化されたカーネルグラム行列をもたらすことが明らかになった。
低データ体制の$N<D$において、グラム行列は$\mathcal{O}(N^2D + (N^2)^3)$(すなわち、次元の数で線形)と$\mathcal{O}(N^2D + N^3)$に推論のコストを削減する方法で分解できることを示した。
この複雑さの低減は、特に勾配観測の情報対コスト比が著しく増加する高次元の領域において、勾配を用いた推論の新たなユースケースを開拓する。
最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。
関連論文リスト
- Sparse Cholesky Factorization for Solving Nonlinear PDEs via Gaussian
Processes [17.40221303803024]
一般非線形偏微分方程式(PDE)を解くためのガウス過程(GP)フレームワークの計算スケーラビリティについて検討する。
ディラックスと微分測定の新しい順序付けの下で、コレスキー因子のほぼ疎度に基づいて、そのようなカーネル行列に対するスパースチョレスキー分解アルゴリズムを提案する。
非線形楕円型, バーガース, モンジュアンペア方程式など, 幅広い非線形PDEに対して, アルゴリズムのほぼ線形空間/時間複雑性を数値的に説明する。
論文 参考訳(メタデータ) (2023-04-03T18:35:28Z) - Efficient displacement convex optimization with particle gradient
descent [57.88860627977882]
粒子勾配降下は確率測度の関数の最適化に広く用いられている。
本稿では, 有限個の粒子による粒子勾配降下について考察し, その理論的保証を定式化して, 測度に置換凸となる関数を最適化する。
論文 参考訳(メタデータ) (2023-02-09T16:35:59Z) - Scalable First-Order Bayesian Optimization via Structured Automatic
Differentiation [4.061135251278187]
広い範囲のカーネルが構造化行列を生じさせ、勾配観測のための正確な$mathcalO(n2d)$Matrix-vector multiplyとヘッセン観測のための$mathcalO(n2d2)$を可能にした。
提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,放射基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。
論文 参考訳(メタデータ) (2022-06-16T17:59:48Z) - Gradient Descent for Low-Rank Functions [36.56489593549855]
例えば、深層ニューラルネットワークのトレーニングのような機械学習タスクでは、損失関数は入力のわずか数方向に大きく変化する。
提案した emphLowRank Descent は $mathcalO(plog(1/epsilon))$gd と $mathcalOp/epsilon2)$p/epsilon2)$を識別して $epsilon 勾配関数を求める。
論文 参考訳(メタデータ) (2022-06-16T15:58:05Z) - Precise Learning Curves and Higher-Order Scaling Limits for Dot Product
Kernel Regression [33.59320315666675]
本稿では, ドット積カーネルにおけるカーネルリッジ回帰の問題と, テスト誤差, バイアス, 分散の式に焦点をあてる。
我々は、任意の整数$r$に対して$m approx dr/r!$が常に学習曲線のピークを観測し、複数のサンプルワイズと非自明な振る舞いを複数のスケールで達成する。
論文 参考訳(メタデータ) (2022-05-30T04:21:31Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Minimum complexity interpolation in random features models [16.823029377470366]
カーネルメソッドは 次元の呪いの影響を強く受けています
我々は,$mathcalF_p$ノルムを用いた学習が無限次元凸問題において抽出可能であることを示す。
双対における一様濃度に基づく証明手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T00:00:02Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。