論文の概要: High-Dimensional Gaussian Process Inference with Derivatives
- arxiv url: http://arxiv.org/abs/2102.07542v1
- Date: Mon, 15 Feb 2021 13:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:35:33.505548
- Title: High-Dimensional Gaussian Process Inference with Derivatives
- Title(参考訳): 微分を持つ高次元ガウス過程推論
- Authors: Filip de Roos, Alexandra Gessner, Philipp Hennig
- Abstract要約: 低データ状態の$ND$では、Gram行列は$mathcalO(N2D + (N2)3)$に推論のコストを下げる方法で分解できることを示す。
最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。
- 参考スコア(独自算出の注目度): 90.8033626920884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although it is widely known that Gaussian processes can be conditioned on
observations of the gradient, this functionality is of limited use due to the
prohibitive computational cost of $\mathcal{O}(N^3 D^3)$ in data points $N$ and
dimension $D$. The dilemma of gradient observations is that a single one of
them comes at the same cost as $D$ independent function evaluations, so the
latter are often preferred. Careful scrutiny reveals, however, that derivative
observations give rise to highly structured kernel Gram matrices for very
general classes of kernels (inter alia, stationary kernels). We show that in
the low-data regime $N<D$, the Gram matrix can be decomposed in a manner that
reduces the cost of inference to $\mathcal{O}(N^2D + (N^2)^3)$ (i.e., linear in
the number of dimensions) and, in special cases, to $\mathcal{O}(N^2D + N^3)$.
This reduction in complexity opens up new use-cases for inference with
gradients especially in the high-dimensional regime, where the
information-to-cost ratio of gradient observations significantly increases. We
demonstrate this potential in a variety of tasks relevant for machine learning,
such as optimization and Hamiltonian Monte Carlo with predictive gradients.
- Abstract(参考訳): ガウス過程が勾配の観測で条件付けできることは広く知られているが、この関数はデータポイント$N$および次元$D$において$\mathcal{O}(N^3 D^3)$の禁止計算コストのために限定的に使用される。
勾配観測のジレンマは、そのうちの1つが$D$独立関数評価と同じコストで来るので、後者はしばしば好まれる。
しかし、注意深い精査の結果、微分観測は、非常に一般的なカーネルクラス(inter alia, stationary kernels)に対して高度に構造化されたカーネルグラム行列をもたらすことが明らかになった。
低データ体制の$N<D$において、グラム行列は$\mathcal{O}(N^2D + (N^2)^3)$(すなわち、次元の数で線形)と$\mathcal{O}(N^2D + N^3)$に推論のコストを削減する方法で分解できることを示した。
この複雑さの低減は、特に勾配観測の情報対コスト比が著しく増加する高次元の領域において、勾配を用いた推論の新たなユースケースを開拓する。
最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。
関連論文リスト
- Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Exploiting Hankel-Toeplitz Structures for Fast Computation of Kernel Precision Matrices [14.25435308779899]
ヒルベルト空間ガウス過程(HGP)アプローチは、GP推論を高速化するための超独立基底関数近似を提供する。
本稿では,この計算複雑性を,余分な近似を伴わずに$mathcalO(NM)$に下げる。
我々の貢献は、いくつかの既存の、広く使われているGP近似の純粋なスピードアップを提供するが、それ以上の近似は行わない。
論文 参考訳(メタデータ) (2024-08-05T09:45:31Z) - When big data actually are low-rank, or entrywise approximation of certain function-generated matrices [0.0]
我々は、ある分析関数の特定のクラスに対して、そのような行列が$m$に依存しないランクの正確なエントリーワイズ近似を認めることを証明するために、文献でなされた議論に反論する。
以下に示すのは、$n times n$ 関数生成行列が階数 $varepsilon$ のエントリーワイド誤差の中で、階数 $mathcalO(log(n) varepsilon-2 の数学的ポリログ(varepsilon-1)$ 次元 $m$ とは独立な3つのより狭い関数のクラスを記述する。
論文 参考訳(メタデータ) (2024-07-03T16:29:47Z) - Contraction rates for conjugate gradient and Lanczos approximate posteriors in Gaussian process regression [0.0]
我々は確率的数値の分野から最近提案された近似アルゴリズムのクラスを分析する。
数値解析結果とカーネル行列のスペクトルのアート集中結果の状態を組み合わせ、最小値の収縮率を求める。
論文 参考訳(メタデータ) (2024-06-18T14:50:42Z) - Efficient displacement convex optimization with particle gradient
descent [57.88860627977882]
粒子勾配降下は確率測度の関数の最適化に広く用いられている。
本稿では, 有限個の粒子による粒子勾配降下について考察し, その理論的保証を定式化して, 測度に置換凸となる関数を最適化する。
論文 参考訳(メタデータ) (2023-02-09T16:35:59Z) - Scalable First-Order Bayesian Optimization via Structured Automatic
Differentiation [4.061135251278187]
広い範囲のカーネルが構造化行列を生じさせ、勾配観測のための正確な$mathcalO(n2d)$Matrix-vector multiplyとヘッセン観測のための$mathcalO(n2d2)$を可能にした。
提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,放射基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。
論文 参考訳(メタデータ) (2022-06-16T17:59:48Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Minimum complexity interpolation in random features models [16.823029377470366]
カーネルメソッドは 次元の呪いの影響を強く受けています
我々は,$mathcalF_p$ノルムを用いた学習が無限次元凸問題において抽出可能であることを示す。
双対における一様濃度に基づく証明手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T00:00:02Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。